CN111696661A - 患者分群模型构建方法、患者分群方法及相关设备 - Google Patents
患者分群模型构建方法、患者分群方法及相关设备 Download PDFInfo
- Publication number
- CN111696661A CN111696661A CN202010404637.2A CN202010404637A CN111696661A CN 111696661 A CN111696661 A CN 111696661A CN 202010404637 A CN202010404637 A CN 202010404637A CN 111696661 A CN111696661 A CN 111696661A
- Authority
- CN
- China
- Prior art keywords
- clustering
- sample data
- patient
- disease
- ending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 201000010099 disease Diseases 0.000 claims abstract description 99
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 99
- 238000003066 decision tree Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 62
- 208000012659 Joint disease Diseases 0.000 claims abstract description 41
- 230000006806 disease prevention Effects 0.000 claims abstract description 32
- 230000000694 effects Effects 0.000 claims abstract description 28
- 238000005192 partition Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 26
- 206010020772 Hypertension Diseases 0.000 description 25
- 230000036772 blood pressure Effects 0.000 description 13
- 230000002265 prevention Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 235000019687 Lamb Nutrition 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 108091005995 glycated hemoglobin Proteins 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 208000019622 heart disease Diseases 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例公开了一种患者分群模型构建方法、患者分群方法及相关设备,其中患者分群模型构建方法包括:获取预设疾病防治指南,根据疾病防治指南生成联合疾病中各个疾病的第一知识分群决策树,并根据第一知识分群决策树,得到患有联合疾病的患者的n个第一候选联合分群方案;获取患有联合疾病的患者的n条样本数据,并根据每条样本数据中的各个指标为每条样本数据生成结局标签;利用带有结局标签的样本数据、第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。采用本申请实施例提供的患者分群模型有利于提高对患有多种疾病的患者进行分群的分群效果。此外,本申请还涉及区块链技术,构建好的患者分群模型可存储于区块链中。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种患者分群模型构建方法、患者分群方法及相关设备。
背景技术
人工智能的发展与机器学习的进步是牢不可分的,机器学习作为人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。医学领域中,机器学习在患者分群上已经有了广泛的应用,而患者分群在精准医疗中又极其重要。目前的患者分群方法会给出患者唯一的分群结果,或者给出几种不同的分群结果,但这些分群结果都是针对患者的一种疾病进行分群得出的,而对患有多种疾病的患者进行多病综合分群时,现有的分群方法效果都不佳。
发明内容
为解决上述问题,本申请提供了一种患者分群模型构建方法、患者分群方法及相关设备,有利于提高对患有多种疾病的患者进行综合分群的分群效果。
本申请实施例第一方面提供了一种患者分群模型构建方法,该方法包括:
获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
结合第一方面,在一种可能的实施方式中,所述根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签,包括:
获取每条所述样本数据中的各个指标的重要性;
基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签。
结合第一方面,在一种可能的实施方式中,所述获取每条所述样本数据中各个指标的重要性,包括:
训练过程中通过梯度下降法减少对数损失,以估计回归系数β0、β1、β2…βn,得到各个指标的重要性。
结合第一方面,在一种可能的实施方式中,所述基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签,包括:
采用预设公式:effect(i)=absolute(i)*relative(i)为每条所述样本数据生成结局标签;其中,effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,根据第i条样本数据中的各个指标的重要性自定义;relative(i)表示第i条样本数据的相对结局,根据absolute(i)定义。
结合第一方面,在一种可能的实施方式中,所述利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型,包括:
A:计算所述第一候选联合分群方案的lambda值;
B:以所述lambda值为标签训练一棵回归树,在回归树的每个叶子节点通过预测的回归结果计算出最终输出得分;
C:通过步骤A和步骤B预测出带有结局标签的每条所述样本数据的得分,根据带有结局标签的每条所述样本数据的得分对每条所述样本数据对应的所述第一候选联合分群方案进行排序;
D:重复步骤A至步骤C组成随机森林,直至满足预设收敛条件之一便停止训练,得到所述患者分群模型;所述预设收敛条件包括:回归树的数量达到预设参数设置、随机森林在验证集上不再持续更新。
本申请实施例第二方面提供了一种患者分群方法,该方法包括:
接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
本申请实施例第三方面提供了一种患者分群模型构建装置,该装置包括:
第一分群方案获取模块,用于获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
结局标签生成模块,用于获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
分群模型训练模块,用于利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型
本申请实施例第四方面提供了一种患者分群装置,该装置包括:
分群请求获取模块,用于接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
第二分群方案获取模块,用于获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
分群方案排序模块,用于将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
分群结果输出模块,用于根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
本申请实施例第五方面提供了一种电子设备,该电子设备包括输入设备和输出设备,还包括处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面或第二方面所述的方法中的步骤。
本申请实施例第六方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述第一方面或第二方面所述的方法中的步骤。
本申请实施例通过获取预设疾病防治指南,对疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成各个疾病的第一知识分群决策树,并根据第一知识分群决策树,得到患有联合疾病的患者的n个第一候选联合分群方案;获取患有联合疾病的患者的n条样本数据,并根据每条样本数据中的各个指标为每条样本数据生成结局标签;利用带有结局标签的样本数据、第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。这样在患者分群模型训练阶段不再考虑单个疾病的分群方案,而是梳理多疾病联合分群的方案,考虑了不同分群决策间的相关效应,同时,样本数据的结局标签不仅考虑结局标签,还考虑了相对结局,一定程度上消除了只使用绝对结局时偏倚样本难以学习的问题,而且,使用lambdaMART模型进行训练,得到的患者分群模型既关注第一候选联合分群方案本身,还关注第一候选联合分群方案之间的优先级顺序,从而有利于提高对患有多种疾病的患者进行分群的分群效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络系统架构图;
图2为本申请实施例提供的一种患者分群模型构建方法的流程示意图;
图3为本申请实施例提供的另一种患者分群模型构建方法的流程示意图;
图4为本申请实施例提供的一种患者分群模型构建的示例图;
图5为本申请实施例提供的一种患者分群方法的流程示意图;
图6为本申请实施例提供的一种患者分群的示例图;
图7为本申请实施例提供的一种患者分群模型构建装置的结构示意图;
图8为本申请实施例提供的一种患者分群装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
本申请实施例提供一种患者分群模型构建方案以构建出适用于多疾病联合患者的患者分群模型,在模型训练阶段,通过联合疾病中各个疾病的知识分群决策树获取到患有该联合疾病的患者的候选联合分群方案,充分考虑单个疾病分群方案之间的相关效应,以患者的随访数据为样本数据,以样本数据中患者的人口统计学信息、用药史、检验检查、生命体征等指标的重要性为每条样本数据生成结局标签,相比现有技术只考虑绝对结局导致模型学习效果不佳的情况,本申请中还考虑了相对结局,更加客观合理,另外,患者分群模型以lambdaMART模型为基础,使得模型在学习时,更注重排名靠前的候选联合分群方案间的顺序,从而在将训练好的患者分群模型应用到多疾病患者分群场景中时,能够得到较佳的分群结果,更适用于精准医疗。
具体的,该患者分群模型构建方案可基于图1所示的网络系统架构进行实施,如图1所示,该网络系统架构至少包括用户终端、服务器和数据库,三者通过有线或无线的网络连接通信,具体通信协议不作限定。用户终端可用于通过程序代码或触控信号向服务器提交疾病防治指南、联合疾病患者的随访数据等,以此请求服务器执行患者分群模型构建相关步骤,服务器为执行主体,通过处理器执行程序代码来进行一系列患者分群模型构建处理,例如:梳理知识分群决策树、生成结局标签、计算lambda值等等,在lambdaMART模型的基础上,使用带结局标签的样本数据和候选联合分群方案为训练集训练出患者分群模型。数据库可用于存储疾病防治指南和大量患者的人口统计学信息、就医数据、随访数据等,开发人员可通过用户终端输入条件查询语句从该数据库中提取需要的信息数据,例如:提取患有高血压和糖尿病患者的随访数据作为样本数据,该数据库可以是服务器中的数据库,也可以是独立于服务器的数据库,或者还可以是云端数据库。可以理解的,本申请中用户终端可以是台式电脑、平板电脑、超级计算机等设备,服务器可以是本地服务器,也可以是云端服务器,或者也可以是服务器集群,等等。
基于图1所示的网络系统架构,以下结合相关附图对本申请实施例提出的患者分群模型构建方法进行详细阐述,请参见图2,图2为本申请实施例提供的一种患者分群模型构建方法的流程示意图,如图2所示,包括步骤S21-S23:
S21,获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案。
本申请具体实施例中,联合疾病指至少两种疾病的组合,例如:糖尿病+高血压,糖尿病+高血压+心脏病等,疾病防治指南可以是联合疾病中每种疾病对应的指南,例如:糖尿病防治指南、高血压防治指南、心脏病防治指南等,可存储于数据库中,服务器可从数据库中进行获取,也可由开发人员通过用户终端发送给服务器,疾病防治指南中可通过关键词识别、文本处理等技术提取出划分属性集,例如:关于高血压的划分属性集可以是{年龄,血压,糖耐量,…,高盐,踝/臂血压指数},第一知识分群决策树即模型训练阶段梳理出的联合疾病中各个疾病的知识分群决策树,可通过C4.5算法计算划分属性集中每一划分属性的信息增益率来构造,第一候选联合分群方案即模型训练阶段服务器对第一知识分群决策树下的分群方案组合得到的方案。疾病防治指南中有相关疾病的治疗决策知识,例如一些治疗建议、药剂建议等,对联合疾病中各个疾病相关的防治指南进行梳理,以得到各个疾病对应的第一知识分群决策树,各第一知识分群决策树之间相互独立,每个第一知识分群决策树下包括该种疾病的分群方案,例如:糖尿病对应的第一知识分群决策树下的分群方案有A={A1,A2,…An}(其中每个Ai为一个分群方案,表示患者可能被分到患者群Ai);高血压对应的第一知识分群决策树下的分群方案有B={B1,B2,…Bm}(其中每个Bj为一个分群方案)。
另外,若联合疾病中的疾病为糖尿病、高血压,如步骤S21中得到的糖尿病对应的第一知识分群决策树下的分群方案有A={A1,A2,…An}和高血压对应的第一知识分群决策树下的分群方案有B={B1,B2,…Bm},每个Ai+Bj均为一种第一候选联合分群方案,例如:一个患有高血压和糖尿病的患者在糖尿病对应的第一知识分群决策树下可选分群方案为{A1,A2},在高血压对应的第一知识分群决策树下可选分群方案为{B1,B2},那么,这个患者可能的第一候选联合分群方案就包括:{A1+B1,A2+B1,A1+B2,A2+B2},如此组合便得出患者的n个(多个)第一候选联合分群方案。
S22,获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签。
本申请具体实施例中,样本数据即患有联合疾病的患者的随访数据,所谓随访数据指医院对曾在医院就诊的病人以通讯或其他的方式,进行定期了解患者病情变化和指导患者康复的一种观察方法,通常一个病人有多次随访,一次随访的数据即可作为一条样本数据,每条样本数据均有一个对应的第一候选联合分群方案。可选的,每条样本数据均包括患者的人口统计学信息、所有疾病的用药史、检验检查指标、医生开药、患者生命体征五大类中的多个指标,例如:用药史中可能存在多个指标,检验检查指标中可能存在多个指标(例如:糖尿病的检验检查指标中有糖化血红蛋白(HbA1c)、高血压的检验检查指标中有血压(BP)),通过训练回归模型的方法获取每条样本数据中的各个指标的重要性,利用各个指标的重要性为每条样本数据生成结局标签。
具体的,利用每条样本数据中的各个指标训练logist回归模型:训练过程中通过梯度下降法减少对数损失,以估计回归系数β0、β1、β2…βn,梯度下降时,当两次迭代之间对数损失的差值小于预设阈值时,回归模型收敛。其中,y表示回归模型的输出,即下一次随访是否增加并发症或是否死亡,是一个二分类,x表示回归模型的输入,即样本数据中的每个指标,Xn即表示输入的第n个指标,β表示每个指标的回归系数,即β1表示指标X1的重要性,将该回归系数作为对应的各个指标的重要性。
在使用机器学习方法对患者分群时,需要为样本数据生成结局标签,以鉴别在特定患者病情下特定分群的效果,从而学习结局好的分群方案,但是现有方法只考虑绝对结局,这会导致机器学习效果不佳。本方案中为每条样本数据生成结局标签时既考虑绝对结局,还考虑相对结局,采用公式effect(i)=absolute(i)*relative(i)完成,其中effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,absolute(i)根据第i条样本数据中的各个指标的重要性自定义,relative(i)表示第i条样本数据的相对结局,relative(i)根据absolute(i)定义。
例如:患有糖尿病和高血压的患者,糖尿病的检验检查指标糖化血红蛋白(HbA1c)、高血压的检验检查指标血压(BP),定义absolute(i)=βHbA1c*(HbA1c(i)-HbA1c(i+1))+βBP*(BP(i)-BP(i+1)),其中,βHbA1c表示糖化血红蛋白的重要性,来自上述回归模型中评估的回归系数,βBP表示表示血压的重要性,HbA1c(i)表示第i条样本数据中的糖化血红蛋白,BP(i)表示第i条样本数据中的血压,HbA1c(i+1)表示下一条样本数据中的糖化血红蛋白,BP(i+1)表示下一条样本数据中的血压。定义relative(i)=∑k∈N(pi,di)absolute(k)/∑j∈N(pi)absolute(j),其中,N(pi)表示被各个第一知识分群决策树都分到与i相同叶子节点的样本集合,N(pi,di)为N(pi)中实际采纳的分群方案与i相同的集合。由于每条样本数据都有对应的第一候选联合分群方案,则此处每条样本数据的结局标签即可用来表示该样本的候选联合分群方案的得分。
S23,利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
本申请具体实施例中,lambdaMART模型原本为信息检索中对文档进行排序的方法,即当用户提出一个Query后,对候选的documents进行排序。本方案中以每条样本数据中的人口统计学信息、检验检查指标、用药史为Query,以第一候选联合分群方案为documents,每个Query-documents pair (Query-documents对)都带有结局标签。针对每个documents,首先计算出lambda值,以该lambda值为标签训练一棵回归树,在回归树的每个叶子节点通过预测的回归结果计算出最终输出的得分(此处的得分为预测得分),采用如此方法预测出带有结局标签的每条样本数据的得分,根据该得分的高低对每条样本数据对应的第一候选联合分群方案进行排序,之后回到计算lambda值的步骤,重复训练回归树、预测得分、排序的步骤,组成随机森林,直到满足预设收敛条件之一即可停止训练,得到我们需要的患者分群模型,收敛条件有:回归树的数量达到预设的参数设置,随机森林在验证集上不再持续更新,即不再变好。
可以看出,本申请实施例通过获取预设疾病防治指南,对疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成各个疾病的第一知识分群决策树,并根据第一知识分群决策树,得到患有联合疾病的患者的n个第一候选联合分群方案;获取患有联合疾病的患者的n条样本数据,并根据每条样本数据中的各个指标为每条样本数据生成结局标签;利用带有结局标签的样本数据、第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。这样在患者分群模型训练阶段不再考虑单个疾病的分群方案,而是梳理多疾病联合分群的方案,考虑了不同分群决策间的相关效应,同时,样本数据的结局标签不仅考虑结局标签,还考虑了相对结局,一定程度上消除了只使用绝对结局时偏倚样本难以学习的问题,而且,使用lambdaMART模型进行训练,得到的患者分群模型既关注第一候选联合分群方案本身,还关注第一候选联合分群方案之间的优先级顺序,从而有利于提高对患有多种疾病的患者进行分群的分群效果。
请参见图3,图3为本申请实施例提供的另一种患者分群模型构建方法的流程示意图,如图3所示,包括步骤S31-S35:
S31,获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树;
S32,根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
S33,获取患有所述联合疾病的患者的n条样本数据,并获取每条所述样本数据中的各个指标的重要性;
在一种可能的实施方式中,上述获取每条所述样本数据中的各个指标的重要性,包括:
训练过程中通过梯度下降法减少对数损失,以估计回归系数β0、β1、β2…βn,得到各个指标的重要性。
该实施方式中,以回归系数β为样本数据中各个指标的重要性,有利于后续绝对结局和相对结局的定义。
S34,基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签;
在一种可能的实施方式中,上述基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签,包括:
采用预设公式:effect(i)=absolute(i)*relative(i)为每条所述样本数据生成结局标签;其中,effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,根据第i条样本数据中的各个指标的重要性自定义;relative(i)表示第i条样本数据的相对结局,根据absolute(i)定义。
该实施方式中,在步骤S33得到各个指标的重要性的基础上,为每条样本数据生成结局标签,结局标签不仅考虑绝对结局,还考虑相对结局,解决了仅考虑绝对解决带来的不客观性,有利于降低患者分群模型的学习难度。
S35,利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
其中,步骤S31-S35的具体实施方式在图2所示的实施例中已有详细说明,为避免重复,此处不再赘述。需要强调的是,为进一步保证上述构建好的患者分群模型的私密和安全性,该模型还可以存储于一区块链的节点中。
为更好地理解本申请实施例提出的患者分群模型构建方案,现以联合疾病为糖尿病和高血压为例进行简要说明。如图4所示,利用糖尿病预防指南(指南1)梳理出糖尿病的知识分群决策树,利用高血压预防指南(指南2)梳理出高血压的知识分群决策树,由糖尿病的知识分群决策树下的分群方案和高血压的知识分群决策树下的分群方案组合得到糖尿病、高血压候选联合分群方案。从数据库中获取多条患有糖尿病和高血压的患者的随访数据,使用每条随访数据中的糖化血红蛋白、血压等指标训练logist回归模型,估计回归模型中回归系数的值,以回归系数的值作为各个指标的重要性,以各个指标的重要性定义绝对结局absolute、根据绝对结局absolute定义相对结局relative,用考虑绝对结局和相对结局的公式为每条随访数据标注结局,得到带结局标签的样本数据,最后用带结局标签的样本数据和糖尿病、高血压候选联合分群方案进行lambdaMART训练,当满足预设收敛条件时停止训练,得到可使用的患者分群模型。
基于图2或图3所示实施例构建的患者分群模型,请参见图5,图5为本申请实施例提供的一种患者分群方法的流程示意图,该患者分群方法同样可基于图1所示的网络系统架构实施,如图5所示,具体包括步骤S51-S54:
S51,接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
本申请具体实施例中,患者分群请求用于向服务器请求对待分群患者进行分群,待分群患者即与模型训练阶段的样本患者患有相同联合疾病的患者,例如:患有糖尿病和高血压的患者。患者分群中可包括该待分群患者患有的联合疾病,当然,还可以包括联合疾病中各种疾病的防治指南、待分群患者的基本信息、诊断信息等,此时,用户终端可以是医护人员使用的终端、医疗研究室的终端、医疗健康型企业工作人员的终端,等等,例如:医护人员可在对待分群患者进行诊断后,通过该用户终端向服务器发送患者分群请求。
S52,获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
本申请具体实施例中,第二知识分群决策树即患者分群模型使用阶段通过关键词识别、计算信息增益率等技术,由梳理疾病防治指南而生成的知识分群决策树,对第二知识分群决策树决策树下的分群方案进行组成,得到第二候选联合分群方案。
S53,将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
本申请具体实施例中,患者分群模型采用训练回归树的方法预测每个第二候选联合分群方案的得分,依据这个得分对每个第二候选联合分群方案进行排序,得分越大的第二候选联合分群方案应该排得越靠前,得分越小的第二候选联合分群方案应该排得越靠后。
S54,根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
本申请具体实施例中,预设数量个第二候选联合分群方案可根据实际情况设定,可以是排在第一位的第二候选联合分群方案,或者也可以是排在前三的第二候选联合分群方案,具体不作限定。例如:待分群患者的第二候选联合分群方案为A1+B1,A2+B1,A1+B2,A2+B2,它们的排序结果是:A2+B1,A2+B2,A1+B1,A1+B2,现设定选取top2的第二候选联合分群方案为待分群患者的最终联合分群方案,则用户终端收到的返回结果是:A2+B1,A2+B2。
本申请实施例提供的患者分群方法,若待分群患者患有糖尿病和高血压,则在接收到用户终端发送的患者分群请求的情况下,其实现可如图6所示,通过糖尿病防治指南和高血压防治指南,分别梳理出糖尿病知识分群决策树和高血压知识分群决策树,根据二者的知识分群决策树得到多个第二候选联合分群方案,将其输入患者分群模型进行得分预测和排序,最后输出top-k最佳第二候选联合分群方案,由于是采用图2或图3所示实施例构建的患者分群模型进行预测、排序,有利于提高对多疾病联合患者进行分群的分群效果,更适用于精准医疗。
基于上述方法实施例的描述,本申请实施例还提供一种患者分群模型构建装置患者分群模型构建装置,所述患者分群模型构建装置可以是运行于终端中的一个计算机程序(包括程序代码)。该患者分群模型构建装置可以执行图2或图3所示的方法。请参见图7,该装置包括:
第一分群方案获取模块71,用于获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
结局标签生成模块72,用于获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
分群模型训练模块73,用于利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
在一种可选的实施方式中,在根据每条所述样本数据中的各个指标为每条样本数据生成结局标签方面,结局标签生成模块72具体用于:
获取每条所述样本数据中的各个指标的重要性;
基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签。
在一种可选的实施方式中,在获取每条所述样本数据中各个指标的重要性方面,结局标签生成模块72具体用于:
训练过程中通过梯度下降法减少对数损失,以估计回归系数β0、β1、β2…βn,得到各个指标的重要性。
在一种可选的实施方式中,在基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签方面,结局标签生成模块72具体用于:
采用预设公式:effect(i)=absolute(i)*relative(i)为每条所述样本数据生成结局标签;其中,effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,根据第i条样本数据中的各个指标的重要性自定义;relative(i)表示第i条样本数据的相对结局,根据absolute(i)定义。
在一种可选的实施方式中,在利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型方面,分群模型训练模块73具体用于:
A:计算所述第一候选联合分群方案的lambda值;
B:以所述lambda值为标签训练一棵回归树,在回归树的每个叶子节点通过预测的回归结果计算出最终输出得分;
C:通过步骤A和步骤B预测出带有结局标签的每条所述样本数据的得分,根据带有结局标签的每条所述样本数据的得分对每条所述样本数据对应的所述第一候选联合分群方案进行排序;
D:重复步骤A至步骤C组成随机森林,直至满足预设收敛条件之一便停止训练,得到所述患者分群模型;所述预设收敛条件包括:回归树的数量达到预设参数设置、随机森林在验证集上不再持续更新。
本申请实施例提供的患者分群模型构建装置通过获取预设疾病防治指南,对疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成各个疾病的第一知识分群决策树,并根据第一知识分群决策树,得到患有联合疾病的患者的n个第一候选联合分群方案;获取患有联合疾病的患者的n条样本数据,并根据每条样本数据中的各个指标为每条样本数据生成结局标签;利用带有结局标签的样本数据、第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。这样在患者分群模型训练阶段不再考虑单个疾病的分群方案,而是梳理多疾病联合分群的方案,考虑了不同分群决策间的相关效应,同时,样本数据的结局标签不仅考虑结局标签,还考虑了相对结局,一定程度上消除了只使用绝对结局时偏倚样本难以学习的问题,而且,使用lambdaMART模型进行训练,得到的患者分群模型既关注第一候选联合分群方案本身,还关注第一候选联合分群方案之间的优先级顺序,从而有利于提高对患有多种疾病的患者进行分群的分群效果。
基于上述图5所示的患者分群方法实施例的描述,本申请实施例还提供一种患者分群装置,请参见图8,该装置包括:
分群请求获取模块81,用于接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
第二分群方案获取模块82,用于获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
分群方案排序模块83,用于将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
分群结果输出模块84,用于根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
本申请实施例提供的患者分群装置通过接收用户终端提交的患者分群请求;患者分群请求中包括待分群患者患有的至少两种疾病;获取待分群患者患有的每种疾病的第二知识分群决策树,根据第二知识分群决策树得到待分群患者的第二候选联合分群方案;将第二候选联合分群方案输入预训练的患者分群模型进行排序,得到第二候选联合分群方案的排序结果;根据第二候选联合分群方案的排序结果,选取预设数量个第二候选联合分群方案作为待分群患者的分群结果返回至用户终端,有利于提高对患有多种疾病的待分群患者进行分群的效果。
根据本申请的一个实施例,图7和图8所示的患者分群模型构建装置和患者分群装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,患者分群模型构建装置、患者分群装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图3或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7或图8所示的装置设备,以及来实现本发明实施例的上述方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种电子设备。请参见图9,该电子设备至少包括处理器901、输入设备902、输出设备903以及计算机存储介质904。其中,电子设备内的处理器901、输入设备902、输出设备903以及计算机存储介质904可通过总线或其他方式连接。
计算机存储介质904可以存储在电子设备的存储器中,所述计算机存储介质904用于存储计算机程序,所述计算机程序包括程序指令,所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例提供的电子设备的处理器901可以用于进行一系列患者分群模型构建处理,包括:
获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
本申请实施例通过获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;获取患有联合疾病的患者的n条样本数据,并根据每条样本数据中的各个指标为每条样本数据生成结局标签;利用带有结局标签的样本数据、第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。这样在患者分群模型训练阶段不再考虑单个疾病的分群方案,而是梳理多疾病联合分群的方案,考虑了不同分群决策间的相关效应,同时,样本数据的结局标签不仅考虑结局标签,还考虑了相对结局,一定程度上消除了只使用绝对结局时偏倚样本难以学习的问题,而且,使用lambdaMART模型进行训练,得到的患者分群模型既关注第一候选联合分群方案本身,还关注第一候选联合分群方案之间的优先级顺序,从而有利于提高对患有多种疾病的患者进行分群的分群效果。
在一个实施例中,处理器901执行所述根据每条所述样本数据中的各个指标为每条样本数据生成结局标签,包括:
获取每条所述样本数据中的各个指标的重要性;
基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签。
在一个实施例中,处理器901执行所述获取每条所述样本数据中各个指标的重要性,包括:
训练过程中通过梯度下降法减少对数损失,以估计回归系数β0、β1、β2…βn,得到各个指标的重要性。
在一个实施例中,处理器901执行所述基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签,包括:
采用预设公式:effect(i)=absolute(i)*relative(i)为每条所述样本数据生成结局标签;其中,effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,根据第i条样本数据中的各个指标的重要性自定义;relative(i)表示第i条样本数据的相对结局,根据absolute(i)定义。
在一个实施例中,处理器901执行所述利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型,包括:
A:计算所述第一候选联合分群方案的lambda值;
B:以所述lambda值为标签训练一棵回归树,在回归树的每个叶子节点通过预测的回归结果计算出最终输出得分;
C:通过步骤A和步骤B预测出带有结局标签的每条所述样本数据的得分,根据带有结局标签的每条所述样本数据的得分对每条所述样本数据对应的所述第一候选联合分群方案进行排序;
D:重复步骤A至步骤C组成随机森林,直至满足预设收敛条件之一便停止训练,得到所述患者分群模型;所述预设收敛条件包括:回归树的数量达到预设参数设置、随机森林在验证集上不再持续更新。
在另一个实施例中,本申请实施例提供的电子设备的处理器901还可以用于进行一系列患者分群处理,包括:
接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
本申请实施例通过接收用户终端提交的患者分群请求;患者分群请求中包括待分群患者患有的至少两种疾病;获取待分群患者患有的每种疾病的第二知识分群决策树,根据第二知识分群决策树得到待分群患者的第二候选联合分群方案;将第二候选联合分群方案输入预训练的患者分群模型进行排序,得到第二候选联合分群方案的排序结果;根据第二候选联合分群方案的排序结果,选取预设数量个第二候选联合分群方案作为待分群患者的分群结果返回至用户终端,有利于提高对患有多种疾病的待分群患者进行分群的效果。
示例性的,上述电子设备可以是智能手机、计算机、笔记本电脑、平板电脑、掌上电脑、服务器等。电子设备可包括但不仅限于处理器901、输入设备902、输出设备903以及计算机存储介质904。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,由于电子设备的处理器901执行计算机程序时实现上述的患者分群模型构建方法或患者分群方法中的步骤,因此上述患者分群模型构建方法、患者分群方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器901的计算机存储介质。在一个实施例中,可由处理器901加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关患者分群模型构建方法或患者分群方法的相应步骤。
需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的患者分群模型构建方法或患者分群方法中的步骤,因此上述患者分群模型构建方法、患者分群方法的所有实施例或实施方式均适用于该计算机存储介质,且均能达到相同或相似的有益效果。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种患者分群模型构建方法,其特征在于,所述方法包括:
获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
2.根据权利要求1所述的方法,其特征在于,所述根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签,包括:
获取每条所述样本数据中的各个指标的重要性;
基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签。
4.根据权利要求2所述的方法,其特征在于,所述基于每条所述样本数据中的各个指标的重要性为每条所述样本数据生成结局标签,包括:
采用预设公式:effect(i)=absolute(i)*relative(i)为每条所述样本数据生成结局标签;其中,effect(i)表示第i条样本数据的结局标签,absolute(i)表示第i条样本数据的绝对结局,根据第i条样本数据中的各个指标的重要性自定义;relative(i)表示第i条样本数据的相对结局,根据absolute(i)定义。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型,包括:
A:计算所述第一候选联合分群方案的lambda值;
B:以所述lambda值为标签训练一棵回归树,在回归树的每个叶子节点通过预测的回归结果计算出最终输出得分;
C:通过步骤A和步骤B预测出带有结局标签的每条所述样本数据的得分,根据带有结局标签的每条所述样本数据的得分对每条所述样本数据对应的所述第一候选联合分群方案进行排序;
D:重复步骤A至步骤C组成随机森林,直至满足预设收敛条件之一便停止训练,得到所述患者分群模型;所述预设收敛条件包括:回归树的数量达到预设参数设置、随机森林在验证集上不再持续更新。
6.一种利用权利要求1-5任一项所述的方法构建的患者分群模型进行的患者分群方法,其特征在于,所述方法包括:
接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
7.一种患者分群模型构建装置,其特征在于,所述装置包括:
第一分群方案获取模块,用于获取预设疾病防治指南,对所述疾病防治指南进行关键词识别,得到联合疾病中各个疾病的划分属性集,计算划分属性集中每个划分属性的信息增益率以生成所述联合疾病中各个疾病的第一知识分群决策树,并根据所述第一知识分群决策树,得到患有所述联合疾病的患者的n个第一候选联合分群方案;
结局标签生成模块,用于获取患有所述联合疾病的患者的n条样本数据,并根据每条所述样本数据中的各个指标为每条所述样本数据生成结局标签;所述样本数据与所述第一候选联合分群方案一一对应,且每条所述样本数据的结局标签用于表示对应的所述第一候选联合分群方案的得分,所述结局标签包括绝对结局和相对结局;
分群模型训练模块,用于利用带有结局标签的所述样本数据、所述第一候选联合分群方案训练lambdaMART模型,得到构建好的患者分群模型。
8.一种患者分群装置,其特征在于,所述装置包括:
分群请求获取模块,用于接收用户终端提交的患者分群请求;所述患者分群请求中包括待分群患者患有的至少两种疾病;
第二分群方案获取模块,用于获取所述待分群患者患有的每种疾病的第二知识分群决策树,根据所述第二知识分群决策树得到所述待分群患者的第二候选联合分群方案;
分群方案排序模块,用于将所述第二候选联合分群方案输入预训练的患者分群模型进行排序,得到所述第二候选联合分群方案的排序结果;
分群结果输出模块,用于根据所述第二候选联合分群方案的排序结果,选取预设数量个所述第二候选联合分群方案作为所述待分群患者的分群结果返回至所述用户终端。
9.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404637.2A CN111696661B (zh) | 2020-05-13 | 2020-05-13 | 患者分群模型构建方法、患者分群方法及相关设备 |
PCT/CN2020/099530 WO2021114635A1 (zh) | 2020-05-13 | 2020-06-30 | 患者分群模型构建方法、患者分群方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404637.2A CN111696661B (zh) | 2020-05-13 | 2020-05-13 | 患者分群模型构建方法、患者分群方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696661A true CN111696661A (zh) | 2020-09-22 |
CN111696661B CN111696661B (zh) | 2024-09-24 |
Family
ID=72477306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404637.2A Active CN111696661B (zh) | 2020-05-13 | 2020-05-13 | 患者分群模型构建方法、患者分群方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111696661B (zh) |
WO (1) | WO2021114635A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819527A (zh) * | 2021-01-29 | 2021-05-18 | 百果园技术(新加坡)有限公司 | 一种用户分群处理方法及装置 |
CN112883654A (zh) * | 2021-03-24 | 2021-06-01 | 国家超级计算天津中心 | 一种基于数据驱动的模型训练系统 |
CN113724815A (zh) * | 2021-08-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于决策分群模型的信息推送方法及装置 |
CN113724061A (zh) * | 2021-08-18 | 2021-11-30 | 杭州信雅达泛泰科技有限公司 | 基于客户分群的消费金融产品信用评分方法及装置 |
CN113782192A (zh) * | 2021-09-30 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于因果推断的分群模型构建方法和医疗数据处理方法 |
CN118507030A (zh) * | 2024-05-31 | 2024-08-16 | 山东纬横医疗科技有限公司 | 一种基于信息化的医疗预防决策系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116759042B (zh) * | 2023-08-22 | 2023-12-22 | 之江实验室 | 一种基于环形一致性的反事实医疗数据生成系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120016206A1 (en) * | 2010-07-16 | 2012-01-19 | Navya Network Inc. | Treatment decision engine with applicability measure |
CN108109692A (zh) * | 2017-11-08 | 2018-06-01 | 北京无极慧通科技有限公司 | 一种治疗方案的选择方法和系统 |
US20180322660A1 (en) * | 2017-05-02 | 2018-11-08 | Techcyte, Inc. | Machine learning classification and training for digital microscopy images |
CN109801705A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 治疗推荐方法、系统、装置及存储介质 |
CN110929752A (zh) * | 2019-10-18 | 2020-03-27 | 平安科技(深圳)有限公司 | 基于知识驱动和数据驱动的分群方法及相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243618B (zh) * | 2018-09-12 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 医学模型的构建方法、疾病标签构建方法及智能设备 |
CN110164519B (zh) * | 2019-05-06 | 2021-08-06 | 北京工业大学 | 一种基于众智网络的用于处理电子病历混合数据的分类方法 |
CN110363226B (zh) * | 2019-06-21 | 2024-09-27 | 平安科技(深圳)有限公司 | 基于随机森林的眼科病种分类识别方法、装置及介质 |
-
2020
- 2020-05-13 CN CN202010404637.2A patent/CN111696661B/zh active Active
- 2020-06-30 WO PCT/CN2020/099530 patent/WO2021114635A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120016206A1 (en) * | 2010-07-16 | 2012-01-19 | Navya Network Inc. | Treatment decision engine with applicability measure |
US20180322660A1 (en) * | 2017-05-02 | 2018-11-08 | Techcyte, Inc. | Machine learning classification and training for digital microscopy images |
CN108109692A (zh) * | 2017-11-08 | 2018-06-01 | 北京无极慧通科技有限公司 | 一种治疗方案的选择方法和系统 |
CN109801705A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 治疗推荐方法、系统、装置及存储介质 |
CN110929752A (zh) * | 2019-10-18 | 2020-03-27 | 平安科技(深圳)有限公司 | 基于知识驱动和数据驱动的分群方法及相关设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819527A (zh) * | 2021-01-29 | 2021-05-18 | 百果园技术(新加坡)有限公司 | 一种用户分群处理方法及装置 |
CN112819527B (zh) * | 2021-01-29 | 2024-05-24 | 百果园技术(新加坡)有限公司 | 一种用户分群处理方法及装置 |
CN112883654A (zh) * | 2021-03-24 | 2021-06-01 | 国家超级计算天津中心 | 一种基于数据驱动的模型训练系统 |
CN113724061A (zh) * | 2021-08-18 | 2021-11-30 | 杭州信雅达泛泰科技有限公司 | 基于客户分群的消费金融产品信用评分方法及装置 |
CN113724815A (zh) * | 2021-08-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于决策分群模型的信息推送方法及装置 |
CN113782192A (zh) * | 2021-09-30 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于因果推断的分群模型构建方法和医疗数据处理方法 |
CN118507030A (zh) * | 2024-05-31 | 2024-08-16 | 山东纬横医疗科技有限公司 | 一种基于信息化的医疗预防决策系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021114635A1 (zh) | 2021-06-17 |
CN111696661B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696661B (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
US20210358588A1 (en) | Systems and Methods for Predicting Medications to Prescribe to a Patient Based on Machine Learning | |
Van der Laan et al. | Targeted learning in data science | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
CN114639483B (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
CN113707323B (zh) | 基于机器学习的疾病预测方法、装置、设备及介质 | |
US11822544B1 (en) | Retrieval of frequency asked questions using attentive matching | |
CN112201359A (zh) | 基于人工智能的重症问诊数据识别方法及装置 | |
CN112785585A (zh) | 基于主动学习的图像视频质量评价模型的训练方法以及装置 | |
Alaa et al. | Personalized risk scoring for critical care patients using mixtures of gaussian process experts | |
CN114822741B (zh) | 患者分类模型的处理装置、计算机设备及存储介质 | |
Yu et al. | Predict or draw blood: An integrated method to reduce lab tests | |
CN110473636B (zh) | 基于深度学习的智能医嘱推荐方法及系统 | |
US20200364566A1 (en) | Systems and methods for predicting pain level | |
CN115424691A (zh) | 病例匹配方法、系统、设备和介质 | |
CN114743647A (zh) | 医疗数据处理方法、装置、设备及存储介质 | |
CN113066531B (zh) | 风险预测方法、装置、计算机设备及存储介质 | |
CN111783473B (zh) | 医疗问答中最佳答案的识别方法、装置和计算机设备 | |
WO2022249407A1 (ja) | アセスメント支援システム、アセスメント支援方法、及び記録媒体 | |
CN117251558A (zh) | 信息推荐方法、装置、设备及存储介质 | |
CN115472257A (zh) | 一种招募用户的方法、装置、电子设备及存储介质 | |
CN114664458A (zh) | 患者分类装置、计算机设备及存储介质 | |
Mu et al. | Diagnosis prediction via recurrent neural networks | |
CN116825360B (zh) | 基于图神经网络的慢病共病预测方法、装置及相关设备 | |
CN117875319B (zh) | 医疗领域标注数据的获取方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030025 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |