CN113889262A - 基于模型的数据预测方法、装置、计算机设备和存储介质 - Google Patents
基于模型的数据预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113889262A CN113889262A CN202111154354.8A CN202111154354A CN113889262A CN 113889262 A CN113889262 A CN 113889262A CN 202111154354 A CN202111154354 A CN 202111154354A CN 113889262 A CN113889262 A CN 113889262A
- Authority
- CN
- China
- Prior art keywords
- prediction
- model
- target
- specified
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000002159 abnormal effect Effects 0.000 claims abstract description 49
- 238000003745 diagnosis Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 122
- 238000012549 training Methods 0.000 claims description 104
- 238000012795 verification Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 29
- 238000012216 screening Methods 0.000 claims description 20
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000010200 validation analysis Methods 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 208000017667 Chronic Disease Diseases 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 8
- 230000002265 prevention Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 108091005995 glycated hemoglobin Proteins 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000014085 Chronic respiratory disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种基于模型的数据预测方法、装置、计算机设备和存储介质,方法包括:获取目标用户的医疗信息;获取预设数量的预测模型,按照预设规则从所有预测模型中确定出目标预测模型;通过目标预测模型生成与医疗信息对应的预测类别信息;判断预测类别信息是否属于指定类别信息;若是,从医疗信息中提取出异常数据;将异常数据输入至就诊建议推荐模型,通过就诊建议推荐模型输出与异常数据对应的目标就诊建议;向目标用户推送目标就诊建议。本申请能基于预设模型的使用来自动准确地生成用户的医疗信息对应的预测类别信息以及相应的就诊建议。本申请还可以应用于区块链领域,上述目标就诊建议可以存储于区块链上。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于模型的数据预测方法、装置、计算机设备和存储介质。
背景技术
慢性病是一大类受环境因素和遗传因素共同影响的多因素疾病,是由多种危险因素综合作用产生的结果。慢性病起病隐匿,潜伏期长、病情进展快,很多患者难以及时发现及治疗。另外,由于目前大多数慢性病的病因及发病机制仍不是十分清楚,治疗效果欠佳,因而预防慢性病的发生具有实际意义。
及时识别出患有慢性病风险的人员,有利于尽快对相关人员进行相关预防及治疗,以降低慢性病对人们生活所造成的影响。目前,主要是通过医生与用户之间的信息沟通来预测用户是否具备患有慢性病的风险。用户需要到医院与医生进行面对面的病情沟通,医生根据用户的医疗信息,通过医疗信息中的相关数据、自身经验或者专家库中已有的数据进行参考推理,以得到针对该用户是否具备患有慢性病的风险的初略评估结论。然而,这种通过对用户的医疗信息进行推理分析的人工评估方式,效率低下,且需要耗费较大的人力成本,同时,人工评估存在一定的偏差,使得得到的评估结论的准确性较低。
发明内容
本申请的主要目的为提供一种基于模型的数据预测方法、装置、计算机设备和存储介质,旨在解决现有的通过对用户的医疗信息进行推理分析的人工评估方式,效率低下,且需要耗费较大的人力成本,同时,人工评估存在一定的偏差,使得得到的评估结论的准确性较低的技术问题。
本申请提出一种基于模型的数据预测方法,所述方法包括步骤:
获取目标用户的医疗信息;
获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
判断所述预测类别信息是否属于指定类别信息;
若属于指定类别信息,从所述医疗信息中提取出异常数据;
将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
向所述目标用户推送所述目标就诊建议。
可选地,所述按照预设规则从所有所述预测模型中确定出目标预测模型的步骤,包括:
基于预设的验证样本集生成各所述预测模型的预测准确率;以及,
基于所述验证样本集生成各所述预测模型的处理效率值;
从所述预测模型中筛选出预测准确率大于预设准确率阈值的第一预测模型;
判断所述第一预测模型的数量是否大于指定数量;
若是,将所有所述第一预测模型的处理效率值的数值按照从大到小的顺序进行排序,得到对应的第一排序结果;
从所述第一排序结果中排序第一的处理效率值开始,依次获取与所述指定数量相同的多个目标处理效率值;
从所述第一预测模型中筛选出与各所述目标处理效率值分别对应的第二预测模型;
将所述第二预测模型作为所述目标预测模型。
可选地,所述基于所述验证样本集生成各所述预测模型的处理效率值的步骤,包括:
获取所述验证样本集;其中,所述验证样本集包括多个验证样本数据;
在第三预测模型获取到每一个所述验证样本数据时,分别统计所述第三预测模型输出与每一个所述验证样本数据分别对应的预测结果的处理花费时间;其中,所述第三预测模型为所有所述预测模型中的任意一个模型;
将所有所述处理花费时间按照数值从大到小的顺序进行排序,得到对应的第二排序结果;
判断所有所述处理花费时间的数量是否为偶数;
若是,获取所述第二排序结果中处于中间位置的两个指定处理花费时间;
计算两个所述指定处理花费时间之间的平均值;
将所述平均值作为所述第三预测模型的处理效率值。
可选地,所述基于所述目标预测模型生成与所述医疗信息对应的预测类别信息的步骤,包括:
将所述医疗信息输入至各所述目标预测模型中,通过各所述目标预测模型对所述医疗信息进行预测处理,分别输出与所述医疗信息对应的预测结果;其中,每一个所述预测结果包括预测类别信息,以及与预测类别信息对应的预测概率,所述预测类别信息用于指示疾病;
对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息;
基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分;
从所有所述预测得分中筛选出数值最大的目标预测得分;
获取与所述目标预测得分对应的目标预测类别信息;
将所述目标预测类别信息作为所述预测类别信息。
可选地,所述基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分的步骤,包括:
从所有所述预测概率中获取与第二预测类别信息对应的所有指定预测概率;其中,所述第二预测类别信息为所有所述第一预测类别信息中的任意一个信息;
从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重;
基于所述模型权重对各所述指定预测概率进行加权求和处理,得到对应的第一和值;
将所述第一和值作为与所述第二预测类别信息对应的预测得分。
可选地,所述从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重的步骤,包括:
获取第五预测模型的指定预测准确率;其中,所述第五预测模型为所有所述第四预测模型中的任意一个模型;
计算所有所述目标预测模型的目标预测准确率之间的第二和值;
计算所述指定预测准确率与所述第二和值之间的比值;
将所述比值作为所述第五预测模型的模型权重。
可选地,所述获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型的步骤之前,包括:
获取预设数量的训练样本集;其中,每一个所述训练样本集包括若干指定医疗信息,以及与指定医疗信息对应的类别标签信息;
从所述训练样本集中获取指定训练样本集;其中,所述指定训练样本集为所有所述训练样本集中的任意一个样本集;
将所述指定训练样本集中的指定医疗信息输入至预设的初始模型中的输入嵌入层,得到对应的指定医疗向量;其中,所述输入嵌入层包括类型嵌入层与值嵌入层;
将所述输入嵌入层中的所述指定医疗向量输入至所述初始模型的中间层,通过所述中间层对所述指定医疗向量进行数据处理,生成相应的特征向量;
将所述中间层中的所述特征向量输入至所述初始模型的分类层,通过预设函数计算所述特征向量属于与输入的指定医疗信息对应的类别标签信息的概率值,并基于所述概率值判断预设的损失函数是否收敛;
若所述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的初始模型作为与所述指定训练样本集对应的预测模型。
本申请还提供一种基于模型的数据预测装置,包括:
第一获取模块,用于获取目标用户的医疗信息;
第一确定模块,用于获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
第一生成模块,用于将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
第一判断模块,用于判断所述预测类别信息是否属于指定类别信息;
提取模块,用于若属于指定类别信息,从所述医疗信息中提取出异常数据;
第二生成模块,用于将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
推送模块,用于向所述目标用户推送所述目标就诊建议。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于模型的数据预测方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的基于模型的数据预测方法、装置、计算机设备和存储介质,在获取到目标用户的医疗信息后,会先从预先训练好的预测模型中确定出目标预测模型,再基于所述目标预测模型生成与所述医疗信息对应的预测类别信息,如果所述预测类别信息是否属于指定类别信息,则会从所述医疗信息中提取出异常数据,并将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议,最后向所述目标用户推送所述目标就诊建议。本申请通过使用所述目标预测模型能够准确的预测出与目标用户对应的预测类别信息,从而可以准确地确定出目标用户是否具备患有慢性病的风险。由于无需人工分析大量的医疗数据,因此,能够提高所述预测类别信息的生成效率,以及提高得到的所述预测类别信息的准确性。另外,还可以从所述医疗信息中提取出异常数据,并利用预设的就诊建议推荐模型来准确的输出与所述异常数据对应的目标就诊建议,以便用户可以根据该目标就诊建议来进行相应的预防治疗,以有效提高预防治疗效果。本申请还应用于智慧医疗场景中,从而推动智慧城市的建设。
附图说明
图1是本申请一实施例的基于模型的数据预测方法的流程示意图;
图2是本申请一实施例的基于模型的数据预测装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
参照图1,本申请一实施例的基于模型的数据预测方法,包括:
S10:获取目标用户的医疗信息;
S20:获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
S30:将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
S40:判断所述预测类别信息是否属于指定类别信息;
S50:若属于指定类别信息,从所述医疗信息中提取出异常数据;
S60:将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
S70:向所述目标用户推送所述目标就诊建议。
如上述步骤S10至S70所述,本方法实施例的执行主体为一种基于模型的数据预测装置。在实际应用中,上述基于模型的数据预测装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于模型的数据预测装置,在获取到用户的医疗信息后,能够基于目标预测模型的使用来自动准确地生成用户的预测类别信息,以及基于就诊建议推荐模型的使用来智能地生成相应的就诊建议。具体地,首先获取目标用户的医疗信息。其中,所述医疗信息可包括目标用户的基本信息,例如性别、年龄、身高、体重等信息,以及包括用户的校验检测信息例如血压、糖化血红蛋白等信息。
然后获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型。其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述指定医疗信息的信息格式与所述医疗信息的信息格式相同,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个。另外,对于训练生成预测模型的具体实现过程,以及按照预设规则从所有所述预测模型中确定出目标预测模型的具体实现过程,本申请发明将在后续的具体实施例中对此作进一步的描述,在此不予赘述。在得到了所述目标预测模型后,将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息。其中,所述预测类别信息可为疾病名称。具体的,可通过将所述医疗信息输入至各所述目标预测模型中,获取各所述目标预测模型输出与所述医疗信息对应的预测结果;再对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息;进而基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分;最终从所有所述预测得分中筛选出数值最大的目标预测得分,并将所述目标预测得分对应的目标预测类别信息作为所述预测类别信息。
之后判断所述预测类别信息是否属于指定类别信息。其中,指定类别可表示慢性病所对应的类型,所述指定类别信息则可表示为慢性病的名称。慢性病全称是慢性非传染性疾病,不是特指某种疾病,而是对一类起病隐匿,病程长且病情迁延不愈,缺乏确切的传染性生物病因证据,病因复杂,且有些尚未完全被确认的疾病的概括性总称。常见的慢性病主要有心脑血管疾病、癌症、糖尿病、慢性呼吸系统疾病等。具体的,可预先创建有一个慢性病名称表并存储于装置内,通过遍历该慢性病名称表中的所有慢性病;将所述预测类别信息与遍历到的慢性病进行对比;当所述预测类别信息与所述遍历到的慢性病中存在任意慢性病相同时,确定所述预测类别信息属于所述指定类别信息。若属于指定类别信息,从所述医疗信息中提取出异常数据。其中,所述异常数据是指所述医疗信息中与正常值不匹配的数据。另外,从所述医疗信息中提取异常数据的方式可参考现有技术,暂不对所述异常数据的提取方式作过多阐述。
后续将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议。其中,所述就诊建议推荐模型的训练生成过程可包括:采用网络爬虫技术获取历史数据;将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据;采用交叉验证法将所述训练数据划分为训练集及验证集;将所述训练集中的数据输入到输入门层进行训练,得到学习器;根据所述验证集中的数据调整所述学习器,得到所述就诊策略推荐模型。另外,通过所述验证集中的数据对所述学习器进行调整,能够准确得到所述就诊策略推荐模型。最后向所述目标用户推送所述目标就诊建议。其中,对于所述目标就诊建议的推送方式不作限定,例如可采用短信形式、语音形式等。另外,通过从所述医疗信息中提取出与预测类别信息有关的异常数据,能够缩小数据分析范围,进而提高对于医疗数据的分析效率,有利于提高诊断建议的生成效率。
本实施例在获取到目标用户的医疗信息后,会先从预先训练好的预测模型中确定出目标预测模型,再基于所述目标预测模型生成与所述医疗信息对应的预测类别信息,如果所述预测类别信息是否属于指定类别信息,则会从所述医疗信息中提取出异常数据,并将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议,最后向所述目标用户推送所述目标就诊建议。本实施例通过使用所述目标预测模型能够准确的预测出与目标用户对应的预测类别信息,从而可以准确地确定出目标用户是否具备患有慢性病的风险。由于无需人工分析大量的医疗数据,因此,能够提高所述预测类别信息的生成效率,以及提高得到的所述预测类别信息的准确性。另外,还可以从所述医疗信息中提取出异常数据,并利用预设的就诊建议推荐模型来准确的输出与所述异常数据对应的目标就诊建议,以便用户可以根据该目标就诊建议来进行相应的预防治疗,以有效提高预防治疗效果。本申请还应用于智慧医疗场景中,从而推动智慧城市的建设。
进一步地,本申请一实施例中,上述步骤S2,包括:
S200:基于预设的验证样本集生成各所述预测模型的预测准确率;以及,
S201:基于所述验证样本集生成各所述预测模型的处理效率值;
S202:从所述预测模型中筛选出预测准确率大于预设准确率阈值的第一预测模型;
S203:判断所述第一预测模型的数量是否大于指定数量;
S204:若是,将所有所述第一预测模型的处理效率值的数值按照从大到小的顺序进行排序,得到对应的第一排序结果;
S205:从所述第一排序结果中排序第一的处理效率值开始,依次获取与所述指定数量相同的多个目标处理效率值;
S206:从所述第一预测模型中筛选出与各所述目标处理效率值分别对应的第二预测模型;
S207:将所述第二预测模型作为所述目标预测模型。
如上述步骤S200至S207所述,所述按照预设规则从所有所述预测模型中确定出目标预测模型的步骤,具体可包括:首先基于预设的验证样本集生成各所述预测模型的预测准确率。其中,所述验证样本集可基于所述训练样本集生成,如可随机从训练样本集中获取预设数值比例的数据作为该验证样本集,且该预设数值比例可根据实际需求进行设置,例如可设为30%。另外,所述验证样本集包括多个验证样本数据,以及与各所述验证样本数据分别对应的类别标签信息。具体的,生成各所述预测模型的预测准确率的过程可包括:分别将各所述验证样本数据输入至第六预测模型中,获取所述第六预测模型输出的与各所述验证样本数据分别对应的第一类别信息;其中,所述第六预测模型为所有所述预测模型中的任意一个模型;基于与各所述验证样本数据分别对应的类别标签信息,获取所有所述第一类别信息中预测正确的第二类别信息;获取所述第一类别信息的第一数量,以及获取所述第二类别信息的第二数量;计算所述第二数量与所述第一数量之间的商值;将所述商值作为所述第六预测模型的预测准确率。以及基于所述验证样本集生成各所述预测模型的处理效率值。其中,对于所述基于所述验证样本集生成各所述预测模型的处理效率值的具体实现过程,本申请将在后续的具体实施例中对此作进一步的描述,在此不予赘述。然后从所述预测模型中筛选出预测准确率大于预设准确率阈值的第一预测模型。其中,对于所述预设准确率阈值的取值不作具体限定,可根据实际需求进行设置。之后判断所述第一预测模型的数量是否大于指定数量。其中,对于指定数量的取值不作具体限定,可根据实际需求进行设置。具体可获取装置内部的使用内存信息,并基于预设的内存-数量映射表查询出与所述使用内存信息对应的数量作为所述指定数量。其中,所述内存-数量映射表可基于测试结果、线上问题分析以及专家经验生成,为记录有内存信息与模型运作数量的映射关系的数据表。且基于内存信息从映射表中选择对应的模型数量,能够保证装置内部模型的数据计算处理过程的损耗代价较小,保证数据计算处理处于正常速率且装置不会出现卡顿情况。若大于指定数量,将所有所述第一预测模型的处理效率值的数值按照从大到小的顺序进行排序,得到对应的第一排序结果。在得到第一排序结果后,从所述第一排序结果中排序第一的处理效率值开始,依次获取与所述指定数量相同的多个目标处理效率值。后续从所述第一预测模型中筛选出与各所述目标处理效率值分别对应的第二预测模型。最后将所述第二预测模型作为所述目标预测模型。本实施例在获得了预先训练好的预设数量的预测模型后,还会对所有所述预测模型进行预测准确率与处理效率值的综合考量,在筛选出大于预设准确率阈值的多个第一预测模型后,进而会从该多个第一预测模型中筛选出处理效率值较高的指定数量的第二预测模型用作目标预测模型。由于得到的目标预测模型具有较高的预测准确率与较高的处理效率,使得后续在利用基于所述目标预测模型生成与所述医疗信息对应的预测类别信息时,能够在保证目标预测模型输出的预测类别信息的准确性的基础上,有效地提高基于医疗信息对用户进行是否患有慢性病的风险预测的处理效率。
进一步地,本申请一实施例中,上述步骤S201,包括:
S2010:获取所述验证样本集;其中,所述验证样本集包括多个验证样本数据;
S2011:在第三预测模型获取到每一个所述验证样本数据时,分别统计所述第三预测模型输出与每一个所述验证样本数据分别对应的预测结果的处理花费时间;其中,所述第三预测模型为所有所述预测模型中的任意一个模型;
S2012:将所有所述处理花费时间按照数值从大到小的顺序进行排序,得到对应的第二排序结果;
S2013:判断所有所述处理花费时间的数量是否为偶数;
S2014:若是,获取所述第二排序结果中处于中间位置的两个指定处理花费时间;
S2015:计算两个所述指定处理花费时间之间的平均值;
S2016:将所述平均值作为所述第三预测模型的处理效率值。
如上述步骤S2010至S2016所述,所述基于所述验证样本集生成各所述预测模型的处理效率值的步骤,具体可包括:首先获取所述验证样本集。其中,所述验证样本集包括多个验证样本数据。然后在第三预测模型获取到每一个所述验证样本数据时,分别统计所述第三预测模型输出与每一个所述验证样本数据分别对应的预测结果的处理花费时间。其中,所述第三预测模型为所有所述预测模型中的任意一个模型。另外,所述处理花费时间是指第三预测模型在接收到任意一个验证样本数据直到输出与该验证样本数据对应的预测结果所花费的时间。举例地,假如第三预测模型接收到验证样本数据x的时间为T1,第三预测模型成功输出验证样本数据x的预测结果y时的时间为T2,则可得到该第三预测模型对应于验证样本数据x的处理花费时间为T=T2-T1。之后将所有所述处理花费时间按照数值从大到小的顺序进行排序,得到对应的第二排序结果。在得到第二排序结果后,判断所有所述处理花费时间的数量是否为偶数。若为偶数,获取所述第二排序结果中处于中间位置的两个指定处理花费时间。后续计算两个所述指定处理花费时间之间的平均值。最后将所述平均值作为所述第三预测模型的处理效率值。其中,通过使用所有所述处理花费时间的中位值来作为所述第三预测模型的处理效率值,可以生成的处理效率值不容易受到数据中极端数值的影响,有利于提高得到的处理效率值的准确性。另外,如果所有所述处理花费时间的数量是为奇数,则将第二排序结果中处于中间位置的处理花费时间作为所述第三预测模型的处理效率值。本实施例中,通过使用验证样本集可以快速地计算出每一个预测模型的处理效率值,有利于后续能够基于该处理效率值以及各预测模型的预测准确率来对所有预测模型进行筛选处理以生成最终的目标预测模型,进而可基于目标预测模型来准确地对目标用户的医疗信息进行预测处理并生成相应的预测类别信息。由于基于预测模型筛选得到的目标预测模型具有较高的预测准确率与处理效率,使得后续在利用目标预测模型对用户的医疗信息进行预测处理时,能够在保证目标预测模型输出的预测类别信息的准确性的基础上,有效地提高对医疗信息的预测处理的处理效率。
进一步地,本申请一实施例中,上述步骤S3,包括:
S300:将所述医疗信息输入至各所述目标预测模型中,通过各所述目标预测模型对所述医疗信息进行预测处理,分别输出与所述医疗信息对应的预测结果;其中,每一个所述预测结果包括预测类别信息,以及与预测类别信息对应的预测概率,所述预测类别信息用于指示疾病;
S301:对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息;
S302:基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分;
S303:从所有所述预测得分中筛选出数值最大的目标预测得分;
S304:获取与所述目标预测得分对应的目标预测类别信息;
S305:将所述目标预测类别信息作为所述预测类别信息。
如上述步骤S300至S305所述,所述基于所述目标预测模型生成与所述医疗信息对应的预测类别信息的步骤,具体可包括:首先将所述医疗信息输入至各所述目标预测模型中,通过各所述目标预测模型对所述医疗信息进行预测处理,分别输出与所述医疗信息对应的预测结果。其中,每一个所述预测结果包括预测类别信息,以及与预测类别信息对应的预测概率,所述预测类别信息用于指示疾病。然后对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息。其中,所述去重处理是指针对多次出现的同一个预测类别信息,会仅保留其中的一个而将剩余预测类别信息进行删除的处理。之后基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分。其中,对于所述基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分的具体实现过程,本申请将在后续的具体实施例中对此作进一步的描述,在此不予赘述。在得到所述预测得分后,从所有所述预测得分中筛选出数值最大的目标预测得分。后续获取与所述目标预测得分对应的目标预测类别信息。最后将所述目标预测类别信息作为所述预测类别信息。本实施例中,在获得了各所述目标预测模型分别输出的与所述医疗信息对应的预测结果后,会智能地通过预测结果中的预测概率来快速计算出每一个预测类别信息的预测得分,从而将数值最大的目标预测得分对应的目标预测类别信息作为所述预测类别信息,以实现快速准确地确定出预测类别信息。由于筛选出的该多个目标预测模型的准确性与处理效率较高,从而使用该多个目标预测模型对用户的医疗信息进行预测处理能够保证后续生成的预测类别信息的全面性与准确性,既避免了仅利用一个预测模型来对目标用户的医疗信息进行处理而导致预测误差过大,同时也不需要使用训练生成的所有预测模型进行处理而导致数据处理量过大,有效地提高了对于医疗信息的预测准确率,保证了模型预测的处理流畅性,以及提高了预测类别信息的生成速率与生成智能性。
进一步地,本申请一实施例中,上述步骤S302,包括:
S3020:从所有所述预测概率中获取与第二预测类别信息对应的所有指定预测概率;其中,所述第二预测类别信息为所有所述第一预测类别信息中的任意一个信息;
S3021:从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重;
S3022:基于所述模型权重对各所述指定预测概率进行加权求和处理,得到对应的第一和值;
S3023:将所述第一和值作为与所述第二预测类别信息对应的预测得分。
如上述步骤S3020至S3023所述,所述基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分的步骤,具体可包括:首先从所有所述预测概率中获取与第二预测类别信息对应的所有指定预测概率。其中,所述第二预测类别信息为所有所述第一预测类别信息中的任意一个信息。然后从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重。其中,对于预测模型的模型权重的具体取值不作具体限定,可根据实际需求进行设定,例如可根据预测模型的测试准确率来生成,或者可根据专家经验生成,等等。之后基于所述模型权重对各所述指定预测概率进行加权求和处理,得到对应的第一和值。最后将所述第一和值作为与所述第二预测类别信息对应的预测得分。本实施例中,对于每一种预测类别信息,可基于该预测类别信息对应的所有指定预测概率,以及与每一种指定预测概率对应的预测模型的模型权重来快速计算出相应的预测得分,有利于后续能够基于预测得分来快速准确的确定出与目标用户对应的预测类别信息,进而基于得到的该预测类别信息来智能准确地检测出目标用户是否具备患有慢性病的风险。
进一步地,本申请一实施例中,上述步骤S3021,包括:
S30210:获取第五预测模型的指定预测准确率;其中,所述第五预测模型为所有所述第四预测模型中的任意一个模型;
S30211:计算所有所述目标预测模型的目标预测准确率之间的第二和值;
S30212:计算所述指定预测准确率与所述第二和值之间的比值;
S30213:将所述比值作为所述第五预测模型的模型权重。
如上述步骤S30210至S30213所述,所述从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重的步骤,具体可包括:首先获取第五预测模型的指定预测准确率。其中,所述第五预测模型为所有所述第四预测模型中的任意一个模型。然后计算所有所述目标预测模型的目标预测准确率之间的第二和值。之后计算所述指定预测准确率与所述第二和值之间的比值。最后将所述比值作为所述第五预测模型的模型权重。举例地,可基于以下公式Q=C/H计算出第五预测模型的模型权重,其中Q为模型权重,C为第五预测模型的指定预测准确率,H为所有所述目标预测模型的目标预测准确率之间的第二和值。本实施例中,通过基于每一个预测模型的预测准确率以及所有预测模型的预测准确率,能够快速准确地生成各预测模型的模型权重,使得后续能够基于得到的模型权重快速的生成与每一个第一预测类别信息分别对应的预测得分,进而通过将所有预测得分中数值最大的目标预测得分对应的目标预测类别信息作为所述预测类别信息,以实现快速准确地确定出与目标用户对应的预测类别信息。以及可以基于得到的预测类别信息来准确地检测出用户是否具备患有慢性病的风险。
进一步地,本申请一实施例中,上述步骤S20之前,包括:
S210:获取预设数量的训练样本集;其中,每一个所述训练样本集包括若干指定医疗信息,以及与指定医疗信息对应的类别标签信息;
S211:从所述训练样本集中获取指定训练样本集;其中,所述指定训练样本集为所有所述训练样本集中的任意一个样本集;
S212:将所述指定训练样本集中的指定医疗信息输入至预设的初始模型中的输入嵌入层,得到对应的指定医疗向量;其中,所述输入嵌入层包括类型嵌入层与值嵌入层;
S213:将所述输入嵌入层中的所述指定医疗向量输入至所述初始模型的中间层,通过所述中间层对所述指定医疗向量进行数据处理,生成相应的特征向量;
S214:将所述中间层中的所述特征向量输入至所述初始模型的分类层,通过预设函数计算所述特征向量属于与输入的指定医疗信息对应的类别标签信息的概率值,并基于所述概率值判断预设的损失函数是否收敛;
S215:若所述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的初始模型作为与所述指定训练样本集对应的预测模型。
如上述步骤S210至S215所述,所述获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型的步骤之前,还可包括预测模型的训练生成过程。具体地,首先获取预设数量的训练样本集。其中,每一个所述训练样本集包括若干指定医疗信息,以及与指定医疗信息对应的类别标签信息。另外,所述指定医疗信息可包括用户的基本信息(例如性别、年龄、身高、体重)以及用户的校验检测信息(例如血压、糖化血红蛋白)等信息。且指定医疗信息的取值有两种情况,一种情况是数值形式的取值,例如体重为58公斤,身高为178厘米,糖化血红蛋白为6%,等等;另一种情况是类别形式的取值,例如性别有两种取值:男性或者女性,等等;上述类别标签信息也可称为诊断标签信息,指代用户所对应的诊断的疾病信息(例如可包括多个类别的疾病名称信息)。然后从所述训练样本集中获取指定训练样本集。其中,所述指定训练样本集为所有所述训练样本集中的任意一个样本集。之后将所述指定训练样本集中的指定医疗信息输入至预设的初始模型中的输入嵌入层,得到对应的指定医疗向量。其中,所述输入嵌入层包括类型嵌入层与值嵌入层。另外,所述初始模型可为深度学习模型,可通过深度学习模型的值嵌入层(valueembeddings)与类型嵌入层(type embeddings)对上述指定医疗信息进行处理,生成与指定医疗信息对应的指定医疗向量。具体的,可先将指定医疗信息转化为类型名称数据与数值数据,再将所述数值数据输入至所述深度学习模型的值嵌入层,以及将所述类型名称数据输入至所述深度学习模型的类型嵌入层;之后基于所述值嵌入层与所述类型嵌入层中包含的数据,生成与所述指定医疗信息对应的指定医疗向量。举例地,假如指定医疗信息包括:体重为48公斤,身高为168厘米,糖化血红蛋白为6%,则可将指定医疗信息拆分得到3个类型名称:体重、身高、糖化血红蛋白,以及得到3个数值数据:48、168、6。另外,可预先设置好与结构化数据的类型名称对应的类型名称数据,例如体重对应1,身高对应2,糖化血红蛋白对应3,并将类型名称转换为对应的类型名称数据。进一步地,可先分别查找出上述值嵌入层与上述类型嵌入层中包含的具有对应关系的相关数据,再对上述相关数据进行拼接处理以生成上述指定医疗向量。在得到了所述指定医疗向量后,将所述输入嵌入层中的所述指定医疗向量输入至所述初始模型的中间层,通过所述中间层对所述指定医疗向量进行数据处理,生成相应的特征向量。其中,可使用BERT模型中的transformer结构作为深度学习模型的中间层,通过该中间层对由输入嵌入层输入的指定医疗向量进行集成处理,将多维度降为一维以完成进一步的特征提取,并将生成的特征向量输出传输到分类层。后续将所述中间层中的所述特征向量输入至所述初始模型的分类层,通过预设函数计算所述特征向量属于与输入的指定医疗信息对应的类别标签信息的概率值,并基于所述概率值判断预设的损失函数是否收敛。其中,上预设函数具体可为述softmax函数:为特征向量属于每种类别标签信息的概率值,Wp为分类层的权重矩阵,u为特征向量,b为偏置项。上述损失函数具体可为交叉熵函数:y为真实概率分布,为预测输出分布,即特征向量属于每种类别标签信息的概率值,为两个分布的交叉熵函数。另外,模型的训练目标是减少交叉熵损失,判断损失函数收敛的过程可包括:将分类层中生成的概率值代入至损失函数中,然后判断该损失函数是否达到预设损失值,如果达到该预设损失值则判定损失函数收敛,如果未达到预设损失值则判定损失函数未收敛。如果上述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的深度学习模型作为上述预测模型。其中,如果上述损失函数未收敛,则进一步根据上述损失函数采用反向传播算法调整上述深度学习的权值和偏置,继续执行上述训练步骤,直至该损失函数收敛,进而完成训练过程。上述反向传播算法可参照现有的算法,在此不作过多阐述。若所述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的初始模型作为与所述指定训练样本集对应的预测模型。其中,可将得到的预测模型存储至区块链网络中,通过使用区块链来对训练生成的预测模型进行存储和管理,能够有效地保证上述预测模型的安全性与不可篡改性。本实施例通过基于预先采集的训练样本集对预设的初始模型进行训练以生成相应的预测模型,有利于后续通过使用预测模型对目标用户的医疗信息进行关于类别信息分类的预测处理来输出相应的预测类别信息,以实现快速智能地完成对于目标用户的疾病预测处理,进而可以基于得到的预测类别信息来智能准确地检测出目标用户是否具备患有慢性病的风险。
本申请实施例中的基于模型的数据预测方法还可以应用于区块链领域,如将上述预测类别信息等数据存储于区块链上。通过使用区块链来对上述预测类别信息进行存储和管理,能够有效地保证上述预测类别信息的安全性与不可篡改性。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种基于模型的数据预测装置,包括:
第一获取模块1,用于获取目标用户的医疗信息;
第一确定模块2,用于获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
第一生成模块3,用于将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
第一判断模块4,用于判断所述预测类别信息是否属于指定类别信息;
提取模块5,用于若属于指定类别信息,从所述医疗信息中提取出异常数据;
第二生成模块6,用于将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
推送模块7,用于向所述目标用户推送所述目标就诊建议。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述第一确定模块2,包括:
第一获取子模块,用于基于预设的验证样本集生成各所述预测模型的预测准确率;以及,
第二获取子模块,用于基于所述验证样本集生成各所述预测模型的处理效率值;
第一筛选子模块,用于从所述预测模型中筛选出预测准确率大于预设准确率阈值的第一预测模型;
判断子模块,用于判断所述第一预测模型的数量是否大于指定数量;
排序子模块,用于若是,将所有所述第一预测模型的处理效率值的按照数值从大到小的顺序进行排序,得到对应的第一排序结果;
第三获取子模块,用于从所述第一排序结果中排序第一的处理效率值开始,依次获取与所述指定数量相同的多个目标处理效率值;
第二筛选子模块,用于从所述第一预测模型中筛选出与各所述目标处理效率值分别对应的第二预测模型;
第一确定子模块,用于将所述第二预测模型作为所述目标预测模型。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述第二获取子模块,包括:
第一获取单元,用于获取所述验证样本集;其中,所述验证样本集包括多个验证样本数据;
统计单元,用于在第三预测模型获取到每一个所述验证样本数据时,分别统计所述第三预测模型输出与每一个所述验证样本数据分别对应的预测结果的处理花费时间;其中,所述第三预测模型为所有所述预测模型中的任意一个模型;
排序单元,用于将所有所述处理花费时间按照数值从大到小的顺序进行排序,得到对应的第二排序结果;
判断单元,用于判断所有所述处理花费时间的数量是否为偶数;
第二获取单元,用于若是,获取所述第二排序结果中处于中间位置的两个指定处理花费时间;
第一计算单元,用于计算两个所述指定处理花费时间之间的平均值;
第一确定单元,用于将所述平均值作为所述第三预测模型的处理效率值。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述第一生成模块3,包括:
第一处理子模块,用于将所述医疗信息输入至各所述目标预测模型中,通过各所述目标预测模型对所述医疗信息进行预测处理,分别输出与所述医疗信息对应的预测结果;其中,每一个所述预测结果包括预测类别信息,以及与预测类别信息对应的预测概率,所述预测类别信息用于指示疾病;
第二处理子模块,用于对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息;
计算子模块,用于基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分;
第三筛选子模块,用于从所有所述预测得分中筛选出数值最大的目标预测得分;
第四获取子模块,用于获取与所述目标预测得分对应的目标预测类别信息;
第二确定子模块,用于将所述目标预测类别信息作为所述预测类别信息。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述计算子模块,包括:
第三获取单元,用于从所有所述预测概率中获取与第二预测类别信息对应的所有指定预测概率;其中,所述第二预测类别信息为所有所述第一预测类别信息中的任意一个信息;
第四获取单元,用于从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重;
第二计算单元,用于基于所述模型权重对各所述指定预测概率进行加权求和处理,得到对应的第一和值;
第二确定单元,用于将所述第一和值作为与所述第二预测类别信息对应的预测得分。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述第四获取单元,包括:
获取子单元,用于获取第五预测模型的指定预测准确率;其中,所述第五预测模型为所有所述第四预测模型中的任意一个模型;
第一计算子单元,用于计算所有所述目标预测模型的目标预测准确率之间的第二和值;
第二计算子单元,用于计算所述指定预测准确率与所述第二和值之间的比值;
确定子单元,用于将所述比值作为所述第五预测模型的模型权重。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的数据预测装置,包括:
第二获取模块,用于获取预设数量的训练样本集;其中,每一个所述训练样本集包括若干指定医疗信息,以及与指定医疗信息对应的类别标签信息;
第三获取模块,用于从所述训练样本集中获取指定训练样本集;其中,所述指定训练样本集为所有所述训练样本集中的任意一个样本集;
第三生成模块,用于将所述指定训练样本集中的指定医疗信息输入至预设的初始模型中的输入嵌入层,得到对应的指定医疗向量;其中,所述输入嵌入层包括类型嵌入层与值嵌入层;
第四生成模块,用于将所述输入嵌入层中的所述指定医疗向量输入至所述初始模型的中间层,通过所述中间层对所述指定医疗向量进行数据处理,生成相应的特征向量;
第二判断模块,用于将所述中间层中的所述特征向量输入至所述初始模型的分类层,通过预设函数计算所述特征向量属于与输入的指定医疗信息对应的类别标签信息的概率值,并基于所述概率值判断预设的损失函数是否收敛;
第二确定模块,用于若所述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的初始模型作为与所述指定训练样本集对应的预测模型。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于模型的数据预测方法的步骤一一对应,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗信息、目标预测模型、预测类别信息、异常数据、就诊建议推荐模型以及目标就诊建议。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于模型的数据预测方法。
上述处理器执行上述基于模型的数据预测方法的步骤:
获取目标用户的医疗信息;
获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
判断所述预测类别信息是否属于指定类别信息;
若属于指定类别信息,从所述医疗信息中提取出异常数据;
将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
向所述目标用户推送所述目标就诊建议。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于模型的数据预测方法,具体为:
获取目标用户的医疗信息;
获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
判断所述预测类别信息是否属于指定类别信息;
若属于指定类别信息,从所述医疗信息中提取出异常数据;
将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
向所述目标用户推送所述目标就诊建议。
综上所述,本申请实施例中提供的基于模型的数据预测方法、装置、计算机设备和存储介质,在获取到目标用户的医疗信息后,会先从预先训练好的预测模型中确定出目标预测模型,再基于所述目标预测模型生成与所述医疗信息对应的预测类别信息,如果所述预测类别信息是否属于指定类别信息,则会从所述医疗信息中提取出异常数据,并将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议,最后向所述目标用户推送所述目标就诊建议。本申请实施例通过使用所述目标预测模型能够准确的预测出与目标用户对应的预测类别信息,从而可以准确地确定出目标用户是否具备患有指定类别信息的风险。由于无需人工分析大量的医疗数据,因此,能够提高所述预测类别信息的生成效率,以及提高得到的所述预测类别信息的准确性。另外,还可以从所述医疗信息中提取出异常数据,并利用预设的就诊建议推荐模型来准确的输出与所述异常数据对应的目标就诊建议,以便用户可以根据该目标就诊建议来进行相应的预防治疗,以有效提高指定类别信息的预防治疗效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于模型的数据预测方法,其特征在于,包括:
获取目标用户的医疗信息;
获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
判断所述预测类别信息是否属于指定类别信息;
若属于指定类别信息,从所述医疗信息中提取出异常数据;
将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
向所述目标用户推送所述目标就诊建议。
2.根据权利要求1所述的基于模型的数据预测方法,其特征在于,所述按照预设规则从所有所述预测模型中确定出目标预测模型的步骤,包括:
基于预设的验证样本集生成各所述预测模型的预测准确率;以及,
基于所述验证样本集生成各所述预测模型的处理效率值;
从所述预测模型中筛选出预测准确率大于预设准确率阈值的第一预测模型;
判断所述第一预测模型的数量是否大于指定数量;
若是,将所有所述第一预测模型的处理效率值的数值按照从大到小的顺序进行排序,得到对应的第一排序结果;
从所述第一排序结果中排序第一的处理效率值开始,依次获取与所述指定数量相同的多个目标处理效率值;
从所述第一预测模型中筛选出与各所述目标处理效率值分别对应的第二预测模型;
将所述第二预测模型作为所述目标预测模型。
3.根据权利要求2所述的基于模型的数据预测方法,其特征在于,所述基于所述验证样本集生成各所述预测模型的处理效率值的步骤,包括:
获取所述验证样本集;其中,所述验证样本集包括多个验证样本数据;
在第三预测模型获取到每一个所述验证样本数据时,分别统计所述第三预测模型输出与每一个所述验证样本数据分别对应的预测结果的处理花费时间;其中,所述第三预测模型为所有所述预测模型中的任意一个模型;
将所有所述处理花费时间按照数值从大到小的顺序进行排序,得到对应的第二排序结果;
判断所有所述处理花费时间的数量是否为偶数;
若是,获取所述第二排序结果中处于中间位置的两个指定处理花费时间;
计算两个所述指定处理花费时间之间的平均值;
将所述平均值作为所述第三预测模型的处理效率值。
4.根据权利要求1所述的基于模型的数据预测方法,其特征在于,所述基于所述目标预测模型生成与所述医疗信息对应的预测类别信息的步骤,包括:
将所述医疗信息输入至各所述目标预测模型中,通过各所述目标预测模型对所述医疗信息进行预测处理,分别输出与所述医疗信息对应的预测结果;其中,每一个所述预测结果包括预测类别信息,以及与预测类别信息对应的预测概率,所述预测类别信息用于指示疾病;
对所有所述预测结果中的所有预测类别信息进行去重处理,得到第一预测类别信息;
基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分;
从所有所述预测得分中筛选出数值最大的目标预测得分;
获取与所述目标预测得分对应的目标预测类别信息;
将所述目标预测类别信息作为所述预测类别信息。
5.根据权利要求4所述的基于模型的数据预测方法,其特征在于,所述基于所有所述预测概率,分别计算出每一个所述第一预测类别信息分别对应的预测得分的步骤,包括:
从所有所述预测概率中获取与第二预测类别信息对应的所有指定预测概率;其中,所述第二预测类别信息为所有所述第一预测类别信息中的任意一个信息;
从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重;
基于所述模型权重对各所述指定预测概率进行加权求和处理,得到对应的第一和值;
将所述第一和值作为与所述第二预测类别信息对应的预测得分。
6.根据权利要求5所述的基于模型的数据预测方法,其特征在于,所述从所述目标预测模型中获取与各所述指定预测概率分别对应的第四预测模型的模型权重的步骤,包括:
获取第五预测模型的指定预测准确率;其中,所述第五预测模型为所有所述第四预测模型中的任意一个模型;
计算所有所述目标预测模型的目标预测准确率之间的第二和值;
计算所述指定预测准确率与所述第二和值之间的比值;
将所述比值作为所述第五预测模型的模型权重。
7.根据权利要求1所述的基于模型的数据预测方法,其特征在于,所述获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型的步骤之前,包括:
获取预设数量的训练样本集;其中,每一个所述训练样本集包括若干指定医疗信息,以及与指定医疗信息对应的类别标签信息;
从所述训练样本集中获取指定训练样本集;其中,所述指定训练样本集为所有所述训练样本集中的任意一个样本集;
将所述指定训练样本集中的指定医疗信息输入至预设的初始模型中的输入嵌入层,得到对应的指定医疗向量;其中,所述输入嵌入层包括类型嵌入层与值嵌入层;
将所述输入嵌入层中的所述指定医疗向量输入至所述初始模型的中间层,通过所述中间层对所述指定医疗向量进行数据处理,生成相应的特征向量;
将所述中间层中的所述特征向量输入至所述初始模型的分类层,通过预设函数计算所述特征向量属于与输入的指定医疗信息对应的类别标签信息的概率值,并基于所述概率值判断预设的损失函数是否收敛;
若所述损失函数收敛,则判定完成模型训练过程,并将得到的训练完成的初始模型作为与所述指定训练样本集对应的预测模型。
8.一种基于模型的数据预测装置,其特征在于,包括:
第一获取模块,用于获取目标用户的医疗信息;
第一确定模块,用于获取预设数量的预先训练好的预测模型,按照预设规则从所有所述预测模型中确定出目标预测模型;其中,每一个所述预测模型分别是基于各自不同的训练样本集进行训练获得的,每一个所述训练样本集包括若干指定医疗信息,以及与所述指定医疗信息对应的类别标签信息,所述训练样本集的数量等于所述预设数量,所述目标预测模型的数量为多个;
第一生成模块,用于将所述医疗信息输入至所述目标预测模型内,通过所述目标预测模型生成与所述医疗信息对应的预测类别信息;
第一判断模块,用于判断所述预测类别信息是否属于指定类别信息;
提取模块,用于若属于指定类别信息,从所述医疗信息中提取出异常数据;
第二生成模块,用于将所述异常数据输入至预先训练好的就诊建议推荐模型,通过所述就诊建议推荐模型输出与所述异常数据对应的目标就诊建议;
推送模块,用于向所述目标用户推送所述目标就诊建议。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111154354.8A CN113889262A (zh) | 2021-09-29 | 2021-09-29 | 基于模型的数据预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111154354.8A CN113889262A (zh) | 2021-09-29 | 2021-09-29 | 基于模型的数据预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113889262A true CN113889262A (zh) | 2022-01-04 |
Family
ID=79008427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111154354.8A Pending CN113889262A (zh) | 2021-09-29 | 2021-09-29 | 基于模型的数据预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889262A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910339A (zh) * | 2022-11-25 | 2023-04-04 | 浙江大学 | 体重监测方法、系统、计算机设备和存储介质 |
CN116092269A (zh) * | 2023-01-10 | 2023-05-09 | 广西新发展交通集团有限公司 | 一种隧道工程岩体灾害预警方法、装置及电子设备 |
CN116127067A (zh) * | 2022-12-28 | 2023-05-16 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908473A (zh) * | 2021-03-24 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于模型的数据处理方法、装置、计算机设备和存储介质 |
WO2021159813A1 (zh) * | 2020-09-28 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据类别确定方法及装置、终端设备、存储介质 |
-
2021
- 2021-09-29 CN CN202111154354.8A patent/CN113889262A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021159813A1 (zh) * | 2020-09-28 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据类别确定方法及装置、终端设备、存储介质 |
CN112908473A (zh) * | 2021-03-24 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于模型的数据处理方法、装置、计算机设备和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910339A (zh) * | 2022-11-25 | 2023-04-04 | 浙江大学 | 体重监测方法、系统、计算机设备和存储介质 |
CN115910339B (zh) * | 2022-11-25 | 2023-07-07 | 浙江大学 | 体重监测方法、系统、计算机设备和存储介质 |
CN116127067A (zh) * | 2022-12-28 | 2023-05-16 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
CN116127067B (zh) * | 2022-12-28 | 2023-10-20 | 北京明朝万达科技股份有限公司 | 文本分类方法、装置、电子设备和存储介质 |
CN116092269A (zh) * | 2023-01-10 | 2023-05-09 | 广西新发展交通集团有限公司 | 一种隧道工程岩体灾害预警方法、装置及电子设备 |
CN116403728A (zh) * | 2023-06-09 | 2023-07-07 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
CN116403728B (zh) * | 2023-06-09 | 2023-08-29 | 吉林大学第一医院 | 医疗就诊数据的数据处理装置和相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113889262A (zh) | 基于模型的数据预测方法、装置、计算机设备和存储介质 | |
Dejaeger et al. | Data mining techniques for software effort estimation: a comparative study | |
CN112908473B (zh) | 基于模型的数据处理方法、装置、计算机设备和存储介质 | |
CN112017789B (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN112037922A (zh) | 病理数据的分析方法、装置、计算机设备和存储介质 | |
EP3968337A1 (en) | Target object attribute prediction method based on machine learning and related device | |
CN110175697A (zh) | 一种不良事件风险预测系统及方法 | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN113986581A (zh) | 数据聚合处理方法、装置、计算机设备和存储介质 | |
CN113327037A (zh) | 基于模型的风险识别方法、装置、计算机设备和存储介质 | |
CN114780859A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN113609295A (zh) | 文本分类方法、装置及相关设备 | |
CN114978968A (zh) | 微服务的异常检测方法、装置、计算机设备和存储介质 | |
CN113656588A (zh) | 基于知识图谱的数据对码方法、装置、设备和存储介质 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN114066438A (zh) | 基于模型的监控数据展示方法、装置、设备和存储介质 | |
Pan et al. | A probability index of the robustness of a causal inference | |
Laqrichi et al. | Integrating uncertainty in software effort estimation using Bootstrap based Neural Networks | |
EP4437424A1 (en) | A system and method for medical queries | |
CN113191146B (zh) | 诉求数据的分配方法、装置、计算机设备和存储介质 | |
CN112966787B (zh) | 相似患者的识别方法、装置、计算机设备和存储介质 | |
Pattnaik et al. | A survey on machine learning techniques used for software quality prediction | |
CN113627551A (zh) | 基于多模型的证件分类方法、装置、设备和存储介质 | |
CN114547053A (zh) | 基于系统的数据处理方法、装置、计算机设备和存储介质 | |
Saen | The use of artificial neural networks for technology selection in the presence of both continuous and categorical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220921 Address after: 518000 Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Liwan Community, Nanshan Street, Nanshan District, Shenzhen, Guangdong, China Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |