CN116956002A - 诊疗信息预测模型的训练方法、装置、设备及存储介质 - Google Patents
诊疗信息预测模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116956002A CN116956002A CN202211434948.9A CN202211434948A CN116956002A CN 116956002 A CN116956002 A CN 116956002A CN 202211434948 A CN202211434948 A CN 202211434948A CN 116956002 A CN116956002 A CN 116956002A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- time sequence
- information
- diagnosis
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 242
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 claims description 147
- 238000013507 mapping Methods 0.000 claims description 66
- 238000012546 transfer Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Substances N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 22
- 206010012601 diabetes mellitus Diseases 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 229940125396 insulin Drugs 0.000 description 12
- 102000004877 Insulin Human genes 0.000 description 10
- 108090001061 Insulin Proteins 0.000 description 10
- 239000003814 drug Substances 0.000 description 10
- 208000024891 symptom Diseases 0.000 description 6
- 229940079593 drug Drugs 0.000 description 5
- 208000019622 heart disease Diseases 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003110 anti-inflammatory effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 229940124579 cold medicine Drugs 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请提供了一种诊疗信息预测模型的训练方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱;基于所述第一时序信息,对于所述第一时序知识图谱中的第一类节点,构建所述第一类节点与目标节点之间的边,得到中间时序知识图谱;对于所述中间时序知识图谱中的第二类节点,基于所述第二类节点所表示的诊疗信息之间的相似度,对所述第二类节点进行替换,得到第二时序知识图谱;以所述第一时序知识图谱中的信息作为正样本数据,所述第二时序知识图谱中的信息作为负样本数据,对诊疗信息预测模型进行训练。上述技术方案能够提高诊疗信息预测模型的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种诊疗信息预测模型的训练方法、装置、设备及存储介质。
背景技术
随着医学的发展和进步,对于诊疗信息的预测技术逐渐发展起来。其中,主要是基于诊疗信息对应的数据构建诊疗信息预测模型,并基于该诊疗信息预测模型进行预测。如何提高诊疗信息预测模型的预测准确率称为本领域研究的重点。
目前,通常采用的方式是基于医学知识图谱,对对象的生理数据进行修改,得到负样本数据,然后,基于对象的生理数据这一正样本数据和负样本数据,来对诊疗信息预测模型进行训练。其中,对象的生理数据是由对象名称、诊疗信息(症状或者药物等)以及关系信息构成的三元组。该关系信息用于表示对象和诊疗信息之间的医学关系。该方式主要是将对象的生理数据中诊疗信息进行随机替换,来构建负样本数据。
但是,由于对象的生理数据与时间具有强关联性,采用上述技术方案中随机替换的方式来构建负样本数据,会引入噪音数据。例如,对象在某一时刻未患有A症状,但是并不排除该对象在此时刻已经患有该症状的可能,若是随机构建在该时刻患有A症状的负样本数据,则该负样本数据本质上是正样本数据,从而导致基于上述方式训练的诊疗信息预测模型的预测准确率低。
发明内容
本申请实施例提供了一种诊疗信息预测模型的训练方法、装置、设备及存储介质,能够构建出更加有效的困难负样本数据,利于诊疗信息预测模型的训练,从而提高诊疗信息预测模型的准确性。所述技术方案如下:
一方面,提供了一种诊疗信息预测模型的训练方法,所述方法包括:
基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,所述第一时序知识图谱包括第一类节点和第二类节点,所述第一类节点用于表示所述生理记录信息中所述样本对象的样本对象名称,所述第二类节点用于表示所述医学知识图谱中诊疗信息的信息名称,所述第一类节点和所述第二类节点之间的边用于表示所述生理记录信息中所述样本对象存在所述第二类节点所表示的诊疗信息,所述第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,所述第一时序知识图谱的拓扑结构随着所述生理记录信息的第一时序信息而变化,所述第一时序信息包括所述生理记录信息中多个生理记录的生成时刻;
基于所述第一时序信息,对于所述第一时序知识图谱中的第一类节点,构建所述第一类节点与目标节点之间的边,得到中间时序知识图谱,所述目标节点属于所述第二类节点,所述目标节点所表示的诊疗信息未出现在所述生理记录信息中;
对于所述中间时序知识图谱中的第二类节点,基于所述第二类节点所表示的诊疗信息之间的相似度,对所述第二类节点进行替换,得到第二时序知识图谱,所述相似度用于表示诊疗信息之间关联强度;
以所述第一时序知识图谱中的信息作为正样本数据,所述第二时序知识图谱中的信息作为负样本数据,对诊疗信息预测模型进行训练。
另一方面,提供了一种诊疗信息预测模型的训练装置,所述装置包括:
第一构建模块,用于基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,所述第一时序知识图谱包括第一类节点和第二类节点,所述第一类节点用于表示所述生理记录信息中所述样本对象的样本对象名称,所述第二类节点用于表示所述医学知识图谱中诊疗信息的信息名称,所述第一类节点和所述第二类节点之间的边用于表示所述生理记录信息中所述样本对象存在所述第二类节点所表示的诊疗信息,所述第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,所述第一时序知识图谱的拓扑结构随着所述生理记录信息的第一时序信息而变化,所述第一时序信息包括所述生理记录信息中多个生理记录的生成时刻;
第二构建模块,用于基于所述第一时序信息,对于所述第一时序知识图谱中的第一类节点,构建所述第一类节点与目标节点之间的边,得到中间时序知识图谱,所述目标节点属于所述第二类节点,所述目标节点所表示的诊疗信息未出现在所述生理记录信息中;
替换模块,用于对于所述中间时序知识图谱中的第二类节点,基于所述第二类节点所表示的诊疗信息之间的相似度,对所述第二类节点进行替换,得到第二时序知识图谱,所述相似度用于表示诊疗信息之间关联强度;
训练模块,用于以所述第一时序知识图谱中的信息作为正样本数据,所述第二时序知识图谱中的信息作为负样本数据,对诊疗信息预测模型进行训练。
在一些实施例中,所述第一构建模块,包括:
扩展单元,用于在第二时序信息上对所述医学知识图谱进行扩展,所述第二时序信息包括连续的多个时刻,每个时刻都对应有一个所述医学知识图谱,所述医学知识图谱中的节点为所述第二类节点,所述第二时序信息中的多个时刻包括所述第一时序信息中的生成时刻;
第一构建单元,用于基于扩展后的所述医学知识图谱和所述生理记录信息,构建所述第一时序知识图谱,所述第一时序知识图谱的时序信息为所述第二时序信息。
在一些实施例中,所述第一构建单元,用于从扩展后的所述医学知识图谱中,获取所述第一时序信息中的生成时刻对应的所述医学知识图谱;基于所述样本对象的样本对象名称,在所述第一时序信息中的生成时刻对应的所述医学知识图谱中,构建所述第一类节点;基于所述生理记录信息中所述样本对象存在的诊疗信息与所述医学知识图谱中的诊疗信息之间的映射关系,在扩展后的所述医学知识图谱上构建所述第一类节点和所述第二类节点之间的边,得到所述第一时序知识图谱。
在一些实施例中,所述训练模块,包括:
第二构建单元,用于基于所述第一时序知识图谱和所述第二时序知识图谱,构建实体空间和关系空间,所述实体空间用于存储任一时序知识图谱中节点对应的实体向量,所述关系空间用于存储任一时序知识图谱中节点关系对应的关系向量,所述关系向量与所述时序知识图谱的时序信息相关联;
映射单元,用于对于任一时序知识图谱中的任一对第一节点和第二节点,基于转移映射矩阵,将所述第一节点和所述第二节点由所述实体空间转移到所述关系空间,得到所述第一节点的第一向量和所述第二节点的第二向量,所述第一节点属于第一类节点,所述第二节点属于第二类节点,所述转移映射矩阵用于表示节点在所述实体空间和所述关系空间之间的映射关系;
确定单元,用于基于所述第一向量、所述第二向量以及目标关系向量,确定所述第一节点和所述第二节点之间的空间距离,所述目标关系向量为所述第一节点和所述第二节点之间的关系向量;
训练单元,用于基于所述第一时序知识图谱中节点之间的空间距离以及所述第二时序知识图谱中节点之间的空间距离,对所述诊疗信息预测模型进行训练。
在一些实施例中,所述映射单元,用于对于任一时序知识图谱中的任一对第一节点和第二节点,确定所述第一节点和所述第二节点之间的目标关系;基于所述目标关系,确定所述转移映射矩阵;将第三向量与所述转移映射矩阵相乘,得到所述第一向量,所述第三向量为所述第一节点在所述实体空间中的向量;将第四向量与所述转移映射矩阵相乘,得到所述第二向量,所述第四向量为所述第二节点在所述实体空间中的向量。
在一些实施例中,所述映射单元,用于基于所述目标关系,确定初始转移映射矩阵;将所述初始转移映射矩阵与目标向量相乘,得到所述转移映射矩阵,所述目标向量用于指示所述目标关系对应的时刻。
在一些实施例中,所述确定单元,用于对所述第一向量和所述目标关系向量进行求和,得到和向量;基于所述和向量与所述第二向量之间的差距,确定所述空间距离。
在一些实施例中,所述训练单元,用于以所述第一时序知识图谱中节点之间的空间距离最小化、所述第二时序知识图谱中节点之间的空间距离最大化为目标,构建损失函数;基于所述损失函数,训练所述诊疗信息预测模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的诊疗信息预测模型的训练方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中诊疗信息预测模型的训练方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各种可选实现方式中提供的诊疗信息预测模型的训练方法。
本申请实施例提供的一种诊疗信息预测模型的训练方法,基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,对于第一时序知识图谱中的生理记录信息和医学知识图谱,采用不同的方式来构建负样本数据,对于生理记录信息,能够构建样本对象未存在的诊疗信息与样本对象之间的关系,由于样本对象的生理记录信息未出现该诊疗信息,因此样本对象存在该诊疗信息的可能性小,由此构建的第二时序知识图谱作为负样本数据对模型训练更加有效。对于医学知识图谱,基于诊疗信息之间的相似度,对诊疗信息进行替换,来构建第二时序知识图谱,使得能够构建出更加有效的困难负样本数据,由此以第一时序知识图谱中的信息作为正样本数据,第二时序知识图谱中的信息作为负样本数据来训练诊疗信息预测模型,能够提高诊疗信息预测模型的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的一种诊疗信息预测模型的训练方法的实施环境示意图;
图2是根据本申请实施例提供的一种诊疗信息预测模型的训练方法的流程图;
图3是根据本申请实施例提供的另一种诊疗信息预测模型的训练方法的流程图;
图4是根据本申请实施例提供的一种第一时序知识图谱的示意图;
图5是根据本申请实施例提供的一种实体空间和关系空间的示意图;
图6是根据本申请实施例提供的一种诊疗信息预测模型的训练过程及使用过程的示意图;
图7是根据本申请实施例提供的一种诊疗信息预测模型的训练装置的框图;
图8是根据本申请实施例提供的另一种诊疗信息预测模型的训练装置的框图;
图9是根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的样本对象的生理记录信息都是在充分授权的情况下获取的。
为了便于理解,以下,对本申请涉及的术语进行解释。
知识图谱(Knowledge Graph):是一种揭示实体之间关系的语义网络,也是一种基于图的数据结构。
时序知识图谱(Temporal Knowledge Graph):是静态知识图谱的扩展延伸,为知识图谱中每一条知识(即三元组)赋予一个时刻来表示知识图谱发生或出现的时间。
时序知识图谱补全(Temporal Knowledge Graph Completion):是指在时序知识图谱上通过机器学习的方法,在限制时刻的情况下对时序知识图谱中的缺失的边进行预测。
诊疗信息预测:其核心问题是预测对象在未来一段时间内患某种诊疗信息的风险概率。诊疗信息预测会根据某个对象群体定义,针对某个预测目标,设定特定的时间窗口,来预测目标诊疗信息的发生概率。
本申请实施例提供的诊疗信息预测模型的训练方法,能够由计算机设备执行。在一些实施例中,该计算机设备为服务器。下面介绍一下本申请实施例提供的诊疗信息预测模型的训练方法的实施环境,图1是根据本申请实施例提供的一种诊疗信息预测模型的训练方法的实施环境示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端101安装有用于记录对象的生理记录数据的应用程序。该应用程序可以是医疗类应用程序或者日程类应用程序等,本申请实施例对此不进行限制。终端101能够通过该应用程序,获取样本对象的生理记录数据。然后终端101将该生理记录数据发送给服务器102。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
在一些实施例中,服务器102是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于训练诊疗信息预测模型。服务器102接收终端101发送的生理记录数据,然后,基于该生理记录数据对诊疗信息预测模型进行训练。在一些实施例中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。
图2是根据本申请实施例提供的一种诊疗信息预测模型的训练方法的流程图,参见图2,在本申请实施例中由服务器执行。该诊疗信息预测模型的训练方法包括以下步骤:
201、服务器基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,该第一时序知识图谱包括第一类节点和第二类节点,该第一类节点用于表示生理记录信息中样本对象的样本对象名称,该第二类节点用于表示医学知识图谱中诊疗信息的信息名称,该第一类节点和第二类节点之间的边用于表示生理记录信息中样本对象存在第二类节点所表示的诊疗信息,该第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,该第一时序知识图谱的拓扑结构随着生理记录信息的第一时序信息而变化,该第一时序信息包括生理记录信息中多个生理记录的生成时刻。
在本申请实施例中,样本对象的生理记录数据包括多个生理记录。对于任一生理记录,该生理记录是由样本对象名称、诊疗信息、样本对象与诊疗信息之间的关系以及生理记录的生成时刻构成的四元组数据。该诊疗信息可以是样本对象表现出来的症状,例如浮肿、咳嗽等;该诊疗信息也可以是样本对象经检验后确定的症状,例如糖尿病、存在某种抗体等;该诊疗信息还可以是样本对象服用的药物,例如消炎药a、感冒药b等,本申请实施例对此不进行限制。该样本对象与诊疗信息之间的关系可以是患有、检验或者服用等,本申请实施例对此不进行限制。该生理记录的生成时刻能够表示样本对象上出现该诊疗信息的时刻。该生成时刻指的是一个相对时间,也即是该生理记录信息中多个生理记录的生成时刻能够表示多个生理记录的生成顺序以及时间间隔。
例如,样本对象甲的生理记录信息包括三个生理记录,分别是<样本对象甲,实验室检验,抗胰岛素受体抗体,0001>、<样本对象甲,患有,糖尿病,0002>以及<样本对象甲,患有,感冒,0006>。其中,0001、0002以及0006均是生成时刻。由此可见,样本对象甲先检验出了体内含有抗胰岛素受体抗体,然后确诊了患有糖尿病,最后又患有了感冒。其中,第一个生理记录与第二生理记录之间的时间间隔为一个单位长度,第二个生理记录与第三生理记录之间的时间间隔为四个单位长度。该单位长度可以是1天、3天或者一周等,本申请实施例对此不进行限制。
在本申请实施例中,医学知识图谱中的节点表示诊疗信息,节点之间的边表示诊疗信息之间的关联关系。以医学知识图谱中具有连接关系的一对节点为例,这一对节点表示的是两种不同的诊疗信息,这一对节点之间的边表示的是这两种不同的诊疗信息之间的医学关系。这一对节点以及节点之间的边构成一个四元组数据。该四元组数据包括第一诊疗信息、医学关系、第二诊疗信息以及时序信息。该第一诊疗信息和第二诊疗信息用于表示这一对节点分别表示的诊疗信息。其中“第一”和“第二”用于区分这一对节点中每个节点所表示的诊疗信息不同。该时序信息用于表示医学知识图谱的数据是一种先验数据,不会随着时间变化。
例如,该医学知识图谱中的一个四元组数据为<糖尿病,适应药物,胰岛素,-1>。其中,糖尿病和胰岛素均可看作是一种诊疗信息。糖尿病的适应药物是胰岛素。-1用于表示该数据在任何时候都是成立的。
服务器获取样本对象的生理记录数据和医学知识图谱,然后,基于在医学知识图谱的基础上添加样本对象的生理记录数据,来构建第一时序知识图谱。
202、服务器基于第一时序信息,对于第一时序知识图谱中的第一类节点,构建第一类节点与目标节点之间的边,得到中间时序知识图谱,该目标节点属于第二类节点,该目标节点所表示的诊疗信息未出现在生理记录信息中。
在本申请实施例中,第一时序知识图谱的拓扑结构随着第一时序信息而变化。对于任一生成时刻对应的时序知识图谱,服务器能够基于生理记录信息,从该时序知识图谱中确定目标节点。然后,服务器在该时序知识图谱的拓扑结构的基础上,将该目标节点与用于表示样本对象的第一类节点连接,得到中间时序知识图谱。由此,服务器构建了样本对象和目标节点所表示的诊疗信息之间的关联关系。
203、对于中间时序知识图谱中的第二类节点,服务器基于第二类节点所表示的诊疗信息之间的相似度,对第二类节点进行替换,得到第二时序知识图谱,该相似度用于表示诊疗信息之间的关联强度。
在本申请实施例中,服务器获取第二类节点所表示的诊疗信息。然后,服务器能够基于诊疗信息的特征,确定诊疗信息的特征之间的相似度。对于任一个第二类节点,服务器能够将该第二类节点替换成与该第二类节点相似度最大的其他第二类节点。
204、服务器以第一时序知识图谱中的数据作为正样本数据,第二时序知识图谱中的数据作为负样本数据,对诊疗信息预测模型进行训练。
在本申请实施例中,服务器将第一时序知识图谱中的数据作为正样本数据,第二时序知识图谱中的数据作为负样本数据,通过对比学习的方式来对诊疗信息预测模型进行训练。
本申请实施例提供的一种诊疗信息预测模型的训练方法,基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,对于第一时序知识图谱中的生理记录信息和医学知识图谱,采用不同的方式来构建负样本数据,对于生理记录信息,能够构建样本对象未存在的诊疗信息与样本对象之间的关系,由于样本对象的生理记录信息未出现该诊疗信息,因此样本对象存在该诊疗信息的可能性小,由此构建的第二时序知识图谱作为负样本数据对模型训练更加有效。对于医学知识图谱,基于诊疗信息之间的相似度,对诊疗信息进行替换,来构建第二时序知识图谱,使得能够构建出更加有效的困难负样本数据,由此以第一时序知识图谱中的信息作为正样本数据,第二时序知识图谱中的信息作为负样本数据来训练诊疗信息预测模型,能够提高诊疗信息预测模型的准确性。
图3是根据本申请实施例提供的另一种诊疗信息预测模型的训练方法的流程图,参见图3,在本申请实施例中由服务器执行。该诊疗信息预测模型的训练方法包括以下步骤:
301、服务器获取样本对象的生理记录信息和医学知识图谱,该生理记录信息包括第一时序信息,该第一时序信息包括生理记录信息中多个生理记录的生成时刻。
在本申请实施例中,服务器获取样本对象的原始生理记录信息。该生理记录数据包括多个原始生理记录。对于任一原始生理记录,该原始生理记录是由样本对象名称、诊疗信息以及样本对象与诊疗信息之间的关系构成的三元组数据。然后,服务器基于多个原始生理记录的出现时间,为该多个原始生理记录分别设置生成时刻,得到生理记录信息。该生成时刻指的是一个相对时间,而非普遍意义中某时某刻的绝对时间。生理记录信息中每个生理记录的生成时刻,除了能够表示该生理记录在该生理记录信息的多个生理记录中的生成顺序,还能够表示该生理记录与该生理记录信息中其他生理记录之间的出现时间间隔。该生理记录信息的多个生理记录的生成时刻构成第一时序信息。
服务器获取原始医学知识图谱。该原始医学知识图谱可以是预先构建好的,也可以是服务器在进行模型训练的过程中,基于诊疗信息之间的关联关系构建的,本申请实施例对比不进行限制。该原始医学知识图谱中的节点表示诊疗信息,节点之间的边表示诊疗信息之间的关联关系。以原始医学知识图谱中具有连接关系的一对节点为例,这一对节点表示的是两种不同的诊疗信息,这一对节点之间的边表示的是这两种不同的诊疗信息之间的医学关系。这一对节点以及节点之间的边构成一个三元组数据。该三元组数据包括第一诊疗信息、医学关系、第二诊疗信息。该第一诊疗信息和第二诊疗信息用于表示这一对节点分别表示的诊疗信息。其中“第一”和“第二”用于区分这一对节点中每个节点所表示的诊疗信息不同。服务器能够为原始医学知识图谱中的数据添加时序信息,得到医学知识图谱。在此情况下,上述三元组数据变为四元组数据。该四元组数据包括第一诊疗信息、医学关系、第二诊疗信息以及时序信息。对于医学知识图谱中的任一数据,服务器添加的时序信息均为-1,用于表示医学知识图谱的数据是一种先验数据,不会随着时间变化。
302、服务器在第二时序信息上对医学知识图谱进行扩展,该第二时序信息包括连续的多个时刻,每个时刻都对应有一个医学知识图谱,该医学知识图谱中的节点为第二类节点,该第二时序信息中的多个时刻包括第一时序信息中的生成时刻。
在本申请实施例中,与第一时序信息中的生成时刻类似,该第二时序信息中的多个时刻也指的是相对时间。不同的是,该第二时序信息中的时刻是连续的,而第一时序信息中的生成时刻可能连续,也可能不连续。相应地,该第一时序信息可以与第二时序信息相同,也可以是第二时序信息的一部分,本申请实施例对此不进行限制。
例如,第二时序信息中的多个时刻分别是0001至0100等100个连续的时刻。第一时序信息中的多个生成时刻分别是0001、0002、0006以及0010。由此可见,第一时序信息中的生成时刻不连续,第一时序信息是第二时序信息的一部分。
服务器将医学知识图谱扩展到第二时序信息中的每个时刻上。也即是,第二时序信息中的每个时刻都对应一个医学知识图谱。对于第二时序信息中的任一时刻,该时刻对应的医学知识图谱中的时序信息为该时刻。也即是,服务器将医学知识图谱中的时序信息转换成该时刻,实现将医学知识图谱扩展到该时刻。换而言之,服务器在第二时序信息的每个时刻上,都生成一个医学知识图谱。相应地,对于医学知识图谱中的任一四元组数据,服务器将该四元组数据中的时序信息扩展到第二时序信息中的每个时刻,实现了将生理记录数据与医学知识图谱在时刻上进行对齐的目的。其中,服务器可以对医学知识图谱的数据进行复制,然后,将复制得到的多个医学知识图谱的数据中的时序信息分别转换成第二时序信息中的时刻。
例如,扩展前医学知识图谱中的一个四元组数据为<糖尿病,适应药物,胰岛素,-1>。经扩展得到<糖尿病,适应药物,胰岛素,0001>、<糖尿病,适应药物,胰岛素,0002>、<糖尿病,适应药物,胰岛素,0003>等多个四元组数据。该多个四元组数据的个数等于第二时序信息中时刻的个数。
303、服务器基于扩展后的医学知识图谱和生理记录信息,构建第一时序知识图谱,该第一时序知识图谱包括第一类节点和第二类节点,该第一类节点用于表示生理记录信息中样本对象的样本对象名称,该第二类节点用于表示医学知识图谱中诊疗信息的信息名称,该第一类节点和第二类节点之间的边用于表示生理记录信息中样本对象存在第二类节点所表示的诊疗信息,该第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,该第一时序知识图谱的时序信息为第二时序信息。
在本申请实施例中,在医学知识图谱扩展后,第二时序信息中每个时刻都对应有一个医学知识图谱。服务器将医学知识图谱中的节点称为第二类节点。医学知识图谱中的边即为第二类节点之间的边,用于表示医学知识图谱所连接的两个第二类节点之间的关系,也即是,这两个第二类节点对应的诊疗信息之间的医学关系。然后,服务器基于生理记录信息,在多个时刻对应的医学图谱中添加第一类节点以及第一类节点和第二类节点之间的边,从而构建第一时序知识图谱。
在一些实施例中,上述步骤303可通过下述过程来实现。该过程包括:服务器从扩展后的医学知识图谱中,获取第一时序信息中的生成时刻对应的医学知识图谱。然后,服务器基于样本对象的样本对象名称,在第一时序信息中的生成时刻对应的医学知识图谱中,构建第一类节点。然后,服务器基于生理记录信息中样本对象存在的诊疗信息与医学知识图谱中的诊疗信息之间的映射关系,在扩展后的医学知识图谱上构建第一类节点和第二类节点之间的边,得到第一时序知识图谱。该映射关系基于诊疗信息的名称的相似度来确定。相似度最高的诊疗信息之间的存在映射关系。本申请实施例提供的方案,在第一时序信息中的生成时刻对应的医学知识图谱中,构建表示样本对象名称的第一类节点,并且根据样本对象存在的诊疗信息与医学知识图谱中的诊疗信息之间的映射关系,构建第一类节点和第二类节点之间的边,实现了将样本对象的生理记录信息与医学知识图谱进行融合的目的,使得得到的第一时序知识图谱能够准确反映样本对象的诊疗信息随时间变化的情况,由于第一时序知识图谱中存在样本对象的诊疗信息与其他诊疗信息之间的医学关系,利于后基于该第一时序知识图谱进行模型训练时,能够充分学习到样本对象可能存在的诊疗信息,从而提高诊疗信息预测模型的准确率。
例如,图4是根据本申请实施例提供的一种第一时序知识图谱的示意图。参见图4,图4示例性地展示了在0002时刻、0003时刻以及0004时刻的第一时序知识图谱的拓扑结构。其中,黑色节点用于表示第一类节点,也即样本对象。白色节点用于表示第二类节点。该白色节点e1、白色节点e2、白色节点e3、白色节点e4、白色节点e5以及白色节点e6分别表示不同的诊疗信息。由图4可见,样本对象在不同时刻出现的诊疗信息可以相同,也可以不同。
304、服务器基于第一时序信息,对于第一时序知识图谱中的第一类节点,构建第一类节点与目标节点之间的边,得到中间时序知识图谱,该目标节点属于第二类节点,该目标节点所表示的诊疗信息未出现在生理记录信息中。
在本申请实施例中,服务器获取多个生理记录的生成时刻对应的时序知识图谱。对于任一生成时刻对应的时序知识图谱,服务器能够基于样本对象的生理记录信息,确定样本对象未出现的诊疗信息。然后,服务器能够从该时序知识图谱中,确定多个节点。该多个节点所表示的诊疗信息,未出现在样本对象自身上。然后,服务器从该多个节点中确定目标节点。其中,服务器能够随机从该多个节点中确定目标节点;或者,服务器还能够从该多个节点中,将与样本对象所出现诊疗信息医学关系弱的诊疗信息对应的节点,确定为目标节点,本申请实施例对此不进行限制。在确定目标节点之后,服务器在该时序知识图谱的拓扑结构的基础上,将该目标节点与用于表示该样本对象的第一类节点连接,得到中间时序知识图谱。由此,服务器构建了样本对象和目标节点所表示的诊疗信息之间的关联关系。由于样本对象所出现诊疗信息与时间相关,上述方式本质上是构建样本对象在第一时序信息的所有时刻中均未出现的诊疗信息与样本对象之间的关系,由此上述方式可以称之为Time-aware Negative Sampling(时间感知负采样)策略。
其中,对于不同生成时刻对应的时序知识图谱,确定的目标节点可以相同,也可以不同,本申请实施例对此不进行限制。对于不同生成时刻对应的时序知识图谱,本申请对于确定的目标节点的数量不进行限制。
例如,样本对象甲在0001时刻患有糖尿病,该时刻的数据为<样本对象甲,患有,糖尿病,0001>;并且,样本对象甲在所有时刻上均未患有心脏病这一疾病,则服务器增加一条四元组数据<样本对象甲,患有,心脏病,0001>。也即是,服务器在0001时刻对应的第一时序知识图谱中,将用于表示样本对象甲的节点与用于表示心脏病的节点进行连接。
305、对于中间时序知识图谱中的第二类节点,服务器基于第二类节点所表示的诊疗信息之间的相似度,对第二类节点进行替换,得到第二时序知识图谱,该相似度用于表示诊疗信息之间的关联强度。
在本申请实施例中,服务器获取中间时序知识图谱中第二类节点所表示的诊疗信息的特征向量。对于任一个第二类节点,服务器计算该第二类节点对应的特征向量与其他第二类节点对应的特征向量之间的相似度。然后,服务器将该第二类节点替换成与该第二类节点相似度最大的其他第二类节点。可选地,服务器可以对中间时序知识图谱中的所有第二类节点全部进行替换;或者,服务器也可以随机选择中间时序知识图谱中的部分第二类节点进行替换,本申请实施例对此不进行限制。上述方式可以称之为Truncated UniformNegative Sampling(截断均匀负采样)策略。
其中,该相似度用于表示诊疗信息之间的关联强度。诊疗信息之间的关联强度越强,则诊疗信息之间的相似度越大;诊疗信息之间的关联强度越弱,则诊疗信息之间的相似度越小。
例如,胰岛素是糖尿病的适应症药物,相比于糖尿病与心脏病之间的关联强度,糖尿病与胰岛素之间的关联强度更强。相应地,相比于糖尿病与心脏病之间的相似度,糖尿病与胰岛素之间的相似度更大。
306、服务器基于第一时序知识图谱和第二时序知识图谱,构建实体空间和关系空间,该实体空间用于存储任一时序知识图谱中节点对应的实体向量,该关系空间用于存储任一时序知识图谱中节点关系对应的关系向量,该关系向量与时序知识图谱的时序信息相关联。
在本申请实施例中,对于任一时序知识图谱,服务器能够将该时序知识图谱中的节点,映射到实体空间;将时序知识图谱中的边,映射到关系空间。该实体空间中的向量用于表示节点对应的诊疗信息。该关系空间中的关系向量用于表示节点对应的诊疗信息之间的医学关系。
例如,图5是根据本申请实施例提供的一种实体空间和关系空间的示意图。参见图5,该实体空间中的为样本对象的特征向量h,实体空间中的t为诊疗信息的特征向量。该Mr(τ)为实体空间与关系空间之间的转移映射矩阵,用于表示节点在实体空间和关系空间之间的映射关系。该关系空间中的h+为实体空间中的h经转移映射矩阵Mr(τ)映射到关系空间中的向量。该关系空间中的t+为实体空间中的t经转移映射矩阵Mr(τ)映射到关系空间中的向量。该关系空间中的r(τ)为样本对象与诊疗信息之间的关系向量。
307、对于任一时序知识图谱中的任一对第一节点和第二节点,基于转移映射矩阵,将第一节点和第二节点由实体空间转移到关系空间,得到第一节点的第一向量和第二节点的第二向量,该第一节点属于第一类节点,该第二节点属于第二类节点,该转移映射矩阵用于表示节点在实体空间和关系空间之间的映射关系。
在本申请实施例中,服务器能够将实体空间中节点对应的向量乘以转移映射矩阵,以实现将时序知识图谱中的节点映射到关系空间的目的。相应地,对于任一时序知识图谱中的任一对第一节点和第二节点,服务器确定第一节点和第二节点之间的目标关系。然后,服务器基于目标关系,确定转移映射矩阵。然后,服务器将第三向量与转移映射矩阵相乘,得到第一向量。服务器将第四向量与转移映射矩阵相乘,得到第二向量。其中,第三向量为第一节点在实体空间中的向量;第四向量为第二节点在实体空间中的向量。本申请实施例提供的方案,通过转移映射矩阵,将时序知识图谱中的节点映射到关系空间中,使得节点对应的实体向量和边对应的关系向量存在于一个空间中,也即是,将样本对象、医学特征以及样本对象与医学特征之间的关系转移到一个空间中,利于后续在模型训练的过程中,能够充分学习样本对象与诊疗信息之间的关系,从而能够提高诊疗信息预测模型的准确性。
在一些实施例中,服务器通过下述公式一,将第一节点和第二节点由实体空间转移到关系空间。
公式一:
hr(τ)=hMr(τ)
tr(τ)=tMr(τ)
其中,h用于表示第一节点在实体空间中的第三向量;hr(τ)用于表示第一节点在关系空间中的第一向量;t用于表示第二节点在实体空间中的第四向量;tr(τ)用于表示第二节点在实体空间中的第二向量;Mr(τ)用于表示转移映射矩阵,r用于表示诊疗信息;τ用于表示生成时刻。
在一些实施例中,转移映射矩阵与节点之间的关系是相关的。相应地,服务器基于目标关系,确定转移映射矩阵的过程包括:服务器基于目标关系,确定初始转移映射矩阵。然后,服务器将初始转移映射矩阵与目标向量相乘,得到转移映射矩阵。该目标向量用于指示目标关系对应的时刻。本申请实施例提供的方案,通过节点之间的关系确定转移映射矩阵,由于节点之间的关系是与时序信息相关的,使得确定的转移映射矩阵也是与时序信息相关的,从而能够考虑到时序信息对节点进行映射,使得能够在模型训练过程中从时序信息的角度进行训练,考虑到了节点之间的关系随时序信息的变化,能够提高模型的准确性。
在一些实施例中,服务器通过下述公式二,确定转移映射矩阵。
公式二:
Mr(τ)=Mr×R(τ)
其中,Mr(τ)用于表示转移映射矩阵;Mr用于表示初始转移映射矩阵,由随机初始化得到;R(τ)用于表示目标向量,该目标向量是一个基于时刻的独热向量(one-hot vector),即时刻由该独热向量中的元素1的位置关系来决定;τ用于表示时刻;r用于表示诊疗信息。
308、服务器基于第一向量、第二向量以及目标关系向量,确定第一节点和第二节点之间的空间距离,该目标关系向量为第一节点和第二节点之间的关系向量。
在本申请实施例中,该空间距离能够表示第一节点表示的样本对象和第二节点表示的诊疗信息之间的关系。空间距离越大说明样本对象与诊疗信息之间的关系越远,也即是样本对象上越不易出现该诊疗信息;空间距离越小说明样本对象与诊疗信息之间的关系越近,也即是样本对象上越容易出现该诊疗信息。服务器能够对第一向量和目标关系向量进行求和,得到和向量。然后,服务器基于和向量与第二向量之间的差距,确定空间距离。
在一些实施例中,服务器能够通过以下公式三,确定第一节点和第二节点之间的空间距离。
公式三:
其中,fr(τ)(h,t)用于表示第一节点和第二节点之间的空间距离;h用于表示第一节点在实体空间中的第三向量;hr(τ)用于表示第一节点在关系空间中的第一向量;t用于表示第二节点在实体空间中的第四向量;tr(τ)用于表示第二节点在实体空间中的第二向量;r用于表示第二节点所表示的诊疗信息;τ用于表示生成时刻,也即是第一节点所表示的样本对象上出现该诊疗信息的时刻;r(τ)用于表示目标关系向量。
309、服务器基于第一时序知识图谱中节点之间的空间距离以及第二时序知识图谱中节点之间的空间距离,对诊疗信息预测模型进行训练。
在本申请实施例中,服务器以第一时序知识图谱中节点之间的空间距离最小化、第二时序知识图谱中节点之间的空间距离最大化为目标,构建损失函数。然后,服务器基于损失函数,训练诊疗信息预测模型。该诊疗信息预测模型可以是TransR模型。在模型训练的过程中,第一时序知识图谱中节点之间的空间距离越来越小,也即是,第一向量和目标关系向量的和向量越来越逼近于第二向量。相应地,模型训练完成后,该诊疗信息预测模型满足hr(τ)+r(τ)≈tr(τ)。其中,hr(τ)用于表示第一节点在关系空间中的第一向量;r(τ)用于表示目标关系向量;tr(τ)用于表示第二节点在实体空间中的第二向量;r用于表示第二节点所表示的诊疗信息;τ用于表示生成时刻,也即是第一节点所表示的样本对象上出现该诊疗信息的时刻。
在一些实施例中,服务器能够通过下述公式四,来构建损失函数。
公式四:
L=∑(h,r(τ),t)∈S∑(h′,r(τ)′,t′)∈S′max(0,fr(τ)(h,t)-fr(τ)(h′,t′)+γ)
其中,L用于表示损失函数;S用于表示第一时序知识图谱;S′用于表示第二时序知识图谱;h用于表示第一时序知识图谱中的样本对象对应的节点在实体空间中的向量;t用于表示第一时序知识图谱中的诊疗信息对应的节点在实体空间中的向量;r(τ)用于表示第一时序知识图谱中的目标关系向量;h′用于表示第二时序知识图谱中的样本对象对应的节点在实体空间中的向量;t′用于表示第二时序知识图谱中的诊疗信息对应的节点在实体空间中的向量;r(τ)′用于表示第二时序知识图谱中的目标关系向量;fr(τ)(h,t)用于表示第一时序知识图谱中样本对象对应的节点与诊疗信息对应的节点的空间距离;fr(τ)(h′,t′)用于表示第二时序知识图谱中样本对象对应的节点与诊疗信息对应的节点的空间距离;γ用于表示距离超参数。
服务器基于上述步骤301至步骤309的方式,对诊疗信息预测模型进行训练。模型训练完成后,服务器能够通过训练好的诊疗信息预测模型,对目标对象在未来某个时刻的出现某个诊疗信息的概率进行预测。服务器获取目标对象的特征向量h、该目标对象存在的诊疗信息t以及未来某个时刻τ。然后,服务器基于上述公式三,对目标对象在未来某个时刻τ出现的诊疗信息r的概率进行预测。
服务器还能够通过训练好的诊疗信息预测模型,预测目标对象在未来某个时刻τ最大可能出现的目标诊疗信息e。服务器能够通过下述公式五,来预测目标对象最大可能出现的目标诊疗信息e。
公式五:
e=max(fr(τ)(h,t),t∈E)
其中,h用于表示目标对象对应的向量;目标对象存在的诊疗信息对应的向量;E用于表示时序知识图谱中诊疗信息的集合;r用于表示目标对象在未来某个时刻τ可能会出现的诊疗信息的集合;τ用于表示未来某个时刻。在预测的诊疗信息的集合r中,目标诊疗信息e的概率最大。
为了更加清楚地描述该诊疗信息预测模型的训练过程及使用过程,下面结合附图再次对上述过程进行描述。例如,图6是根据本申请实施例提供的一种诊疗信息预测模型的训练过程及使用过程的示意图。参见图6,服务器获取原始生理记录信息和原始医学知识图谱。该原始生理记录信息中的原始生理记录是由样本对象名称、诊疗信息以及样本对象与诊疗信息之间的关系构成的三元组数据。该原始医学知识图谱中的数据是由第一诊疗信息、医学关系、第二诊疗信息构成的三元组数据。然后,服务器对原始生理记录信息和原始医学知识图谱分别进行数据处理。也即是,服务器基于多个原始生理记录的出现时间,为该多个原始生理记录分别设置生成时刻,得到生理记录信息。服务器为原始医学知识图谱中的数据添加时序信息,得到医学知识图谱。然后,服务器在第二时序信息上对医学知识图谱进行扩展,也即是第二时序信息中的每个时刻都对应有一个医学知识图谱的数据。然后,服务器将扩展后的医学知识图谱和生理记录信息进行融合,构建第一时序知识图谱。然后,服务器将第一时序知识图谱输入诊疗信息预测模型,用于对诊疗信息预测模型进行训练。其中,在模型训练过程中,服务器基于第一时序知识图谱构建第二时序知识图谱。然后,服务器以第一时序知识图谱中的数据作为正样本数据,第二时序知识图谱中的数据作为负样本数据,对诊疗信息预测模型进行训练。模型训练完成后,服务器将目标对象的特征向量h、该目标对象存在的诊疗信息t以及未来某个时刻τ等目标对象的生理记录信息输入到诊疗信息预测模型。然后,服务器通过该诊疗信息预测模型,预测目标对象在未来某个时刻τ出现的诊疗信息r的概率。
本申请实施例提供的一种诊疗信息预测模型的训练方法,基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,对于第一时序知识图谱中的生理记录信息和医学知识图谱,采用不同的方式来构建负样本数据,对于生理记录信息,能够构建样本对象未存在的诊疗信息与样本对象之间的关系,由于样本对象的生理记录信息未出现该诊疗信息,因此样本对象存在该诊疗信息的可能性小,由此构建的第二时序知识图谱作为负样本数据对模型训练更加有效。对于医学知识图谱,基于诊疗信息之间的相似度,对诊疗信息进行替换,来构建第二时序知识图谱,使得能够构建出更加有效的困难负样本数据,由此以第一时序知识图谱中的信息作为正样本数据,第二时序知识图谱中的信息作为负样本数据来训练诊疗信息预测模型,能够提高诊疗信息预测模型的准确性。
图7是根据本申请实施例提供的一种诊疗信息预测模型的训练装置的框图。该诊疗信息预测模型装置用于执行上述诊疗信息预测模型方法执行时的步骤,参见图7,该装置包括:第一构建模块701、第二构建模块702、替换模块703以及训练模块704。
第一构建模块701,用于基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,第一时序知识图谱包括第一类节点和第二类节点,第一类节点用于表示生理记录信息中样本对象的样本对象名称,第二类节点用于表示医学知识图谱中诊疗信息的信息名称,第一类节点和第二类节点之间的边用于表示生理记录信息中样本对象存在第二类节点所表示的诊疗信息,第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,第一时序知识图谱的拓扑结构随着生理记录信息的第一时序信息而变化,第一时序信息包括生理记录信息中多个生理记录的生成时刻;
第二构建模块702,用于基于第一时序信息,对于第一时序知识图谱中的第一类节点,构建第一类节点与目标节点之间的边,得到中间时序知识图谱,目标节点属于第二类节点,目标节点所表示的诊疗信息未出现在生理记录信息中;
替换模块703,用于对于中间时序知识图谱中的第二类节点,基于第二类节点所表示的诊疗信息之间的相似度,对第二类节点进行替换,得到第二时序知识图谱,相似度用于表示诊疗信息之间关联强度;
训练模块704,用于以第一时序知识图谱中的信息作为正样本数据,第二时序知识图谱中的信息作为负样本数据,对诊疗信息预测模型进行训练。
本申请实施例提供的一种诊疗信息预测模型的训练装置,基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,对于第一时序知识图谱中的生理记录信息和医学知识图谱,采用不同的方式来构建负样本数据,对于生理记录信息,能够构建样本对象未存在的诊疗信息与样本对象之间的关系,由于样本对象的生理记录信息未出现该诊疗信息,因此样本对象存在该诊疗信息的可能性小,由此构建的第二时序知识图谱作为负样本数据对模型训练更加有效。对于医学知识图谱,基于诊疗信息之间的相似度,对诊疗信息进行替换,来构建第二时序知识图谱,使得能够构建出更加有效的困难负样本数据,由此以第一时序知识图谱中的信息作为正样本数据,第二时序知识图谱中的信息作为负样本数据来训练诊疗信息预测模型,能够提高诊疗信息预测模型的准确性。
在一些实施例中,图8是根据本申请实施例提供的另一种诊疗信息预测模型的训练装置的框图。参见图8,第一构建模块701,包括:
扩展单元7011,用于在第二时序信息上对医学知识图谱进行扩展,第二时序信息包括连续的多个时刻,每个时刻都对应有一个医学知识图谱,医学知识图谱中的节点为第二类节点,第二时序信息中的多个时刻包括第一时序信息中的生成时刻;
第一构建单元7012,用于基于扩展后的医学知识图谱和生理记录信息,构建第一时序知识图谱,第一时序知识图谱的时序信息为第二时序信息。
在一些实施例中,第一构建单元7012,用于从扩展后的医学知识图谱中,获取第一时序信息中的生成时刻对应的医学知识图谱;基于样本对象的样本对象名称,在第一时序信息中的生成时刻对应的医学知识图谱中,构建第一类节点;基于生理记录信息中样本对象存在的诊疗信息与医学知识图谱中的诊疗信息之间的映射关系,在扩展后的医学知识图谱上构建第一类节点和第二类节点之间的边,得到第一时序知识图谱。
在一些实施例中,训练模块704,包括:
第二构建单元7041,用于基于第一时序知识图谱和第二时序知识图谱,构建实体空间和关系空间,实体空间用于存储任一时序知识图谱中节点对应的实体向量,关系空间用于存储任一时序知识图谱中节点关系对应的关系向量,关系向量与时序知识图谱的时序信息相关联;
映射单元7042,用于对于任一时序知识图谱中的任一对第一节点和第二节点,基于转移映射矩阵,将第一节点和第二节点由实体空间转移到关系空间,得到第一节点的第一向量和第二节点的第二向量,第一节点属于第一类节点,第二节点属于第二类节点,转移映射矩阵用于表示节点在实体空间和关系空间之间的映射关系;
确定单元7043,用于基于第一向量、第二向量以及目标关系向量,确定第一节点和第二节点之间的空间距离,目标关系向量为第一节点和第二节点之间的关系向量;
训练单元7044,用于基于第一时序知识图谱中节点之间的空间距离以及第二时序知识图谱中节点之间的空间距离,对诊疗信息预测模型进行训练。
在一些实施例中,映射单元7042,用于对于任一时序知识图谱中的任一对第一节点和第二节点,确定第一节点和第二节点之间的目标关系;基于目标关系,确定转移映射矩阵;将第三向量与转移映射矩阵相乘,得到第一向量,第三向量为第一节点在实体空间中的向量;将第四向量与转移映射矩阵相乘,得到第二向量,第四向量为第二节点在实体空间中的向量。
在一些实施例中,映射单元7042,用于基于目标关系,确定初始转移映射矩阵;将初始转移映射矩阵与目标向量相乘,得到转移映射矩阵,目标向量用于指示目标关系对应的时刻。
在一些实施例中,确定单元7043,用于对第一向量和目标关系向量进行求和,得到和向量;基于和向量与第二向量之间的差距,确定空间距离。
在一些实施例中,训练单元7044,用于以第一时序知识图谱中节点之间的空间距离最小化、第二时序知识图谱中节点之间的空间距离最大化为目标,构建损失函数;基于损失函数,训练诊疗信息预测模型。
需要说明的是:上述实施例提供的诊疗信息预测模型的训练装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的诊疗信息预测模型的训练装置与诊疗信息预测模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是根据本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,该存储器902中存储有至少一条计算机程序,该至少一条计算机程序由该处理器901加载并执行以实现上述各个方法实施例提供的诊疗信息预测模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段计算机程序,该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的诊疗信息预测模型的训练方法中计算机设备所执行的操作。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各种可选实现方式中提供的诊疗信息预测模型的训练方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种诊疗信息预测模型的训练方法,其特征在于,所述方法包括:
基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,所述第一时序知识图谱包括第一类节点和第二类节点,所述第一类节点用于表示所述生理记录信息中所述样本对象的样本对象名称,所述第二类节点用于表示所述医学知识图谱中诊疗信息的信息名称,所述第一类节点和所述第二类节点之间的边用于表示所述生理记录信息中所述样本对象存在所述第二类节点所表示的诊疗信息,所述第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,所述第一时序知识图谱的拓扑结构随着所述生理记录信息的第一时序信息而变化,所述第一时序信息包括所述生理记录信息中多个生理记录的生成时刻;
基于所述第一时序信息,对于所述第一时序知识图谱中的第一类节点,构建所述第一类节点与目标节点之间的边,得到中间时序知识图谱,所述目标节点属于所述第二类节点,所述目标节点所表示的诊疗信息未出现在所述生理记录信息中;
对于所述中间时序知识图谱中的第二类节点,基于所述第二类节点所表示的诊疗信息之间的相似度,对所述第二类节点进行替换,得到第二时序知识图谱,所述相似度用于表示诊疗信息之间关联强度;
以所述第一时序知识图谱中的数据作为正样本数据,所述第二时序知识图谱中的数据作为负样本数据,对诊疗信息预测模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,包括:
在第二时序信息上对所述医学知识图谱进行扩展,所述第二时序信息包括连续的多个时刻,每个时刻都对应有一个所述医学知识图谱,所述医学知识图谱中的节点为所述第二类节点,所述第二时序信息中的多个时刻包括所述第一时序信息中的生成时刻;
基于扩展后的所述医学知识图谱和所述生理记录信息,构建所述第一时序知识图谱,所述第一时序知识图谱的时序信息为所述第二时序信息。
3.根据权利要求2所述的方法,其特征在于,所述基于扩展后的所述医学知识图谱和所述生理记录信息,构建所述第一时序知识图谱,包括:
从扩展后的所述医学知识图谱中,获取所述第一时序信息中的生成时刻对应的所述医学知识图谱;
基于所述样本对象的样本对象名称,在所述第一时序信息中的生成时刻对应的所述医学知识图谱中,构建所述第一类节点;
基于所述生理记录信息中所述样本对象存在的诊疗信息与所述医学知识图谱中的诊疗信息之间的映射关系,在扩展后的所述医学知识图谱上构建所述第一类节点和所述第二类节点之间的边,得到所述第一时序知识图谱。
4.根据权利要求1所述的方法,其特征在于,所述以所述第一时序知识图谱中的数据作为正样本数据,所述第二时序知识图谱中的数据作为负样本数据,对诊疗信息预测模型进行训练,包括:
基于所述第一时序知识图谱和所述第二时序知识图谱,构建实体空间和关系空间,所述实体空间用于存储任一时序知识图谱中节点对应的实体向量,所述关系空间用于存储任一时序知识图谱中节点关系对应的关系向量,所述关系向量与所述时序知识图谱的时序信息相关联;
对于任一时序知识图谱中的任一对第一节点和第二节点,基于转移映射矩阵,将所述第一节点和所述第二节点由所述实体空间转移到所述关系空间,得到所述第一节点的第一向量和所述第二节点的第二向量,所述第一节点属于第一类节点,所述第二节点属于第二类节点,所述转移映射矩阵用于表示节点在所述实体空间和所述关系空间之间的映射关系;
基于所述第一向量、所述第二向量以及目标关系向量,确定所述第一节点和所述第二节点之间的空间距离,所述目标关系向量为所述第一节点和所述第二节点之间的关系向量;
基于所述第一时序知识图谱中节点之间的空间距离以及所述第二时序知识图谱中节点之间的空间距离,对所述诊疗信息预测模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述对于任一时序知识图谱中的任一对第一节点和第二节点,基于转移映射矩阵,将所述第一节点和所述第二节点由所述实体空间转移到所述关系空间,得到所述第一节点的第一向量和所述第二节点的第二向量,包括:
对于任一时序知识图谱中的任一对第一节点和第二节点,确定所述第一节点和所述第二节点之间的目标关系;
基于所述目标关系,确定所述转移映射矩阵;
将第三向量与所述转移映射矩阵相乘,得到所述第一向量,所述第三向量为所述第一节点在所述实体空间中的向量;
将第四向量与所述转移映射矩阵相乘,得到所述第二向量,所述第四向量为所述第二节点在所述实体空间中的向量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标关系,确定所述转移映射矩阵,包括:
基于所述目标关系,确定初始转移映射矩阵;
将所述初始转移映射矩阵与目标向量相乘,得到所述转移映射矩阵,所述目标向量用于指示所述目标关系对应的时刻。
7.根据权利要求4所述的方法,其特征在于,所述基于所述第一向量、所述第二向量以及目标关系向量,确定所述第一节点和所述第二节点之间的空间距离,包括:
对所述第一向量和所述目标关系向量进行求和,得到和向量;
基于所述和向量与所述第二向量之间的差距,确定所述空间距离。
8.根据权利要求4所述的方法,其特征在于,所述基于所述第一时序知识图谱中节点之间的空间距离以及所述第二时序知识图谱中节点之间的空间距离,对所述诊疗信息预测模型进行训练,包括:
以所述第一时序知识图谱中节点之间的空间距离最小化、所述第二时序知识图谱中节点之间的空间距离最大化为目标,构建损失函数;
基于所述损失函数,训练所述诊疗信息预测模型。
9.一种诊疗信息预测模型的训练装置,其特征在于,所述装置包括:
第一构建模块,用于基于样本对象的生理记录信息和医学知识图谱,构建第一时序知识图谱,所述第一时序知识图谱包括第一类节点和第二类节点,所述第一类节点用于表示所述生理记录信息中所述样本对象的样本对象名称,所述第二类节点用于表示所述医学知识图谱中诊疗信息的信息名称,所述第一类节点和所述第二类节点之间的边用于表示所述生理记录信息中所述样本对象存在所述第二类节点所表示的诊疗信息,所述第二类节点之间的边用于表示对应的诊疗信息之间的医学关系,所述第一时序知识图谱的拓扑结构随着所述生理记录信息的第一时序信息而变化,所述第一时序信息包括所述生理记录信息中多个生理记录的生成时刻;
第二构建模块,用于基于所述第一时序信息,对于所述第一时序知识图谱中的第一类节点,构建所述第一类节点与目标节点之间的边,得到中间时序知识图谱,所述目标节点属于所述第二类节点,所述目标节点所表示的诊疗信息未出现在所述生理记录信息中;
替换模块,用于对于所述中间时序知识图谱中的第二类节点,基于所述第二类节点所表示的诊疗信息之间的相似度,对所述第二类节点进行替换,得到第二时序知识图谱,所述相似度用于表示诊疗信息之间关联强度;
训练模块,用于以所述第一时序知识图谱中的数据作为正样本数据,所述第二时序知识图谱中的数据作为负样本数据,对诊疗信息预测模型进行训练。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行权利要求1至8任一项权利要求所述的诊疗信息预测模型的训练方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段计算机程序,所述至少一段计算机程序用于执行权利要求1至8任一项权利要求所述的诊疗信息预测模型的训练方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项权利要求所述的诊疗信息预测模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211434948.9A CN116956002A (zh) | 2022-11-16 | 2022-11-16 | 诊疗信息预测模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211434948.9A CN116956002A (zh) | 2022-11-16 | 2022-11-16 | 诊疗信息预测模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956002A true CN116956002A (zh) | 2023-10-27 |
Family
ID=88446645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211434948.9A Pending CN116956002A (zh) | 2022-11-16 | 2022-11-16 | 诊疗信息预测模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956002A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174319A (zh) * | 2023-11-03 | 2023-12-05 | 神州医疗科技股份有限公司 | 一种基于知识图谱的脓毒症时序预测方法及系统 |
-
2022
- 2022-11-16 CN CN202211434948.9A patent/CN116956002A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174319A (zh) * | 2023-11-03 | 2023-12-05 | 神州医疗科技股份有限公司 | 一种基于知识图谱的脓毒症时序预测方法及系统 |
CN117174319B (zh) * | 2023-11-03 | 2024-03-01 | 神州医疗科技股份有限公司 | 一种基于知识图谱的脓毒症时序预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112992317B (zh) | 一种医学数据处理方法、系统、设备及介质 | |
CN112116090B (zh) | 神经网络结构搜索方法、装置、计算机设备及存储介质 | |
Williams et al. | Applying machine learning to pediatric critical care data | |
US11735321B2 (en) | System for the prognostics of the chronic diseases after the medical examination based on the multi-label learning | |
Yang et al. | Multi-source transfer learning via ensemble approach for initial diagnosis of Alzheimer’s disease | |
CN112395423A (zh) | 递归的时序知识图谱补全方法和装置 | |
Zhou et al. | When and where to transfer for Bayesian network parameter learning | |
CN111627531A (zh) | 一种基于人工智能的医学影像分类处理系统 | |
CN116956002A (zh) | 诊疗信息预测模型的训练方法、装置、设备及存储介质 | |
Manduchi et al. | T-dpsom: An interpretable clustering method for unsupervised learning of patient health states | |
CN113345523A (zh) | 基于图注意力网络的微生物-疾病关联性预测方法及系统 | |
CN116502129A (zh) | 一种知识与数据协同驱动的不平衡临床数据分类系统 | |
Bi et al. | GNEA: a graph neural network with ELM aggregator for brain network classification | |
Islam et al. | A case study of healthcare platform using big data analytics and machine learning | |
Wang et al. | Kernel similarity-based multigranulation three-way decision approach to hypertension risk assessment with multi-source and multi-level structure data | |
CN112016701B (zh) | 一种融合时序和属性行为的异常变化检测方法及系统 | |
Sampath et al. | Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction | |
CN115658927B (zh) | 一种面向时序知识图谱的无监督实体对齐方法及装置 | |
Shi et al. | Domain adaptation based on rough adjoint inconsistency and optimal transport for identifying autistic patients | |
CN117038096A (zh) | 一种基于低资源医疗数据与知识挖掘的慢性疾病预测方法 | |
Stripelis et al. | Federated learning over harmonized data silos | |
Wu et al. | FedAutoMRI: Federated neural architecture search for MR image reconstruction | |
Mabrouk et al. | Ensemble Federated Learning: An approach for collaborative pneumonia diagnosis | |
Yao et al. | TERQA: question answering over knowledge graph considering precise dependencies of temporal information on vectors | |
Tissot et al. | Improving risk assessment of miscarriage during pregnancy with knowledge graph embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |