CN116403728B - 医疗就诊数据的数据处理装置和相关设备 - Google Patents
医疗就诊数据的数据处理装置和相关设备 Download PDFInfo
- Publication number
- CN116403728B CN116403728B CN202310683412.9A CN202310683412A CN116403728B CN 116403728 B CN116403728 B CN 116403728B CN 202310683412 A CN202310683412 A CN 202310683412A CN 116403728 B CN116403728 B CN 116403728B
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- vector
- weight
- matrix
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 359
- 238000003745 diagnosis Methods 0.000 claims abstract description 340
- 239000011159 matrix material Substances 0.000 claims abstract description 216
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 26
- 208000024891 symptom Diseases 0.000 claims description 23
- 238000003672 processing method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 85
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 26
- 201000010099 disease Diseases 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 239000004973 liquid crystal related substance Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 206010061818 Disease progression Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000005750 disease progression Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 206010019280 Heart failures Diseases 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013503 de-identification Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提供一种医疗就诊数据的数据处理装置和相关设备,包括:诊断编码矩阵获取模块,用于获取诊断编码矩阵;加权处理模块,用于获得诊断编码矩阵的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量;第一局部聚焦特征确定模块,用确定第一局部聚焦特征;第一局部聚焦加权向量确定模块,用于通过第一门控向量对第一局部聚焦特征的权重进行调节获得第一局部聚焦加权向量;第一全局聚焦加权向量确定模块,用于通过第一权重向量对第一键向量的权重进行调节处理获得第一全局聚焦加权向量;加权融合模块,用于将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合;风险预测模块,用于预测目标对象存在的风险。
Description
技术领域
本公开涉及医疗技术领域,尤其涉及一种医疗就诊数据的数据处理装置、电子设备和计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
基于电子病历进行风险分析的核心问题之一是根据病人的历史电子病历数据来分析其中隐藏着的疾病与症状之间的可能存在的风险关系。基于数据挖掘技术充分利用医疗数据,可以及时发现患者潜在的患病风险,以便医疗工作者根据该风险有针对性的为患者安排检查,以便能更加及时且准确的发现患者所患疾病,提高患者治愈率。
因此,本公开要解决的技术问题是如何基于医疗数据对目标对象的风险进行预测。
发明内容
本公开的目的在于提供一种医疗就诊数据的数据处理装置、电子设备以及计算机可读存储介质,能够基于医疗就诊数据准确且及时的预测出目标对象存在的风险。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种医疗就诊数据的数据处理方法,包括:获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码矩阵是根据所述多个就诊记录中的诊断编码生成的;通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对所述诊断编码矩阵进行加权处理,获得所述目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码矩阵的全局特征;根据所述第一查询向量、所述第一键向量和所述第一值向量确定第一局部聚焦特征,所述第一局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;通过所述第一门控向量对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;通过所述第一权重向量对所述第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;将所述第一局部聚焦加权特征和所述第一全局聚焦加权特征进行融合,获得所述目标对象的诊断编码融合矩阵;根据所述诊断编码融合矩阵预测所述目标对象存在的风险。
在一些实施例中,获取目标对象的多个就诊记录对应的诊断编码矩阵,包括:获取所述目标对象对应的诊断编码稀疏矩阵,其中所述诊断编码稀疏矩阵是根据各个就诊记录对应的就诊稀疏向量生成的;通过所述目标网络模型的第一特征提取模块对各个就诊记录对应的就诊稀疏向量进行嵌入特征提取处理,确定各个就诊记录对应的就诊嵌入向量;根据各个就诊记录对应的就诊嵌入向量,生成诊断嵌入矩阵;根据所述诊断嵌入矩阵预测所述目标对象存在的风险。
在一些实施例中,根据所述诊断嵌入矩阵预测所述目标对象存在的风险,包括:根据各个就诊嵌入向量确定所述诊断嵌入矩阵中的各个就诊嵌入向量对应的就诊加权权重;通过所述就诊加权权重对各个就诊嵌入向量分别进行权重调节处理,确定加权后就诊嵌入向量;根据加权后就诊嵌入向量生成所述诊断编码矩阵。
在一些实施例中,获取所述目标对象对应的诊断编码稀疏矩阵,包括:获取所述目标对象的多个就诊记录,所述多个就诊记录按时间顺序排列;根据各个就诊记录的至少一个诊断编码生成各个就诊记录对应的就诊稀疏向量,其中当所述就诊稀疏向量的稀疏值为1时表示所述目标对象存在所述稀疏值对应的诊断编码所对应的症状或者异常发现物;根据各个就诊记录对应的就诊稀疏向量生成所述诊断编码稀疏矩阵。
在一些实施例中,根据所述诊断编码融合矩阵预测所述目标对象存在的风险,包括:根据所述诊断编码融合矩阵,确定各个诊断编码在所述目标对象的各个就诊记录下的编码嵌入表示;通过所述目标网络模型的第二特征提取模块,对各个诊断编码对应的编码嵌入向量分别进行特征提取处理,确定各个诊断编码对应的编码密集向量;根据各个编码嵌入向量对应的编码密集向量生成编码密集矩阵;根据所述编码密集矩阵预测所述目标对象存在的风险。
在一些实施例中,根据所述编码密集矩阵预测所述目标对象存在的风险,包括:根据各编码密集向量确定各个编码密集向量对应的编码加权权重;根据所述编码加权权重对各个编码密集向量分别进行调节处理,确定加权后编码密集向量;根据所述加权后编码密集向量生成所述编码密集矩阵,以便根据所述编码密集矩阵预测所述目标对象存在的风险。
在一些实施例中,所述变形器还包括第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元;其中,将所述第一局部聚焦加权特征和所述第一全局聚焦加权特征进行融合,获得所述目标对象的诊断编码融合矩阵,包括:通过所述第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元分别对所述诊断编码矩阵进行加权处理,获得所述目标对象对应的第二查询向量、第二键向量、第二值向量、第二门控向量和第二权重向量,其中所述第六权重单元、所述第七权重单元、所述第八权重单元、所述第九权重单元和所述第十权重单元是在所述目标网络模型的训练过程中获得的,其中所述第二值向量聚焦于所述诊断编码矩阵的全局特征;根据所述第二查询向量、所述第二键向量和所述第二值向量确定第二局部聚焦特征,所述第二局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;通过所述第二门控向量对所述第二局部聚焦特征的权重进行调节,获得第二局部聚焦加权向量;通过所述第二权重向量对所述第二键向量的权重进行调节处理,获得第二全局聚焦加权向量;将所述第一局部聚焦加权特征、所述第一全局聚焦加权特征、所述第二局部聚焦加权特征和所述第二全局聚焦加权特征进行融合,获得所述目标对象的所述诊断编码融合矩阵。
本公开实施例提供了一种医疗就诊数据的数据处理装置,包括:诊断编码矩阵获取模块、加权处理模块、第一局部聚焦特征确定模块、第一局部聚焦加权向量确定模块、第一全局聚焦加权向量确定模块、加权融合模块和风险预测模块。
其中,所述诊断编码矩阵获取模块用于获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码矩阵是根据所述多个就诊记录中的诊断编码生成的;所述加权处理模块可以用于通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对所述诊断编码矩阵进行加权处理,获得所述目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码矩阵的全局特征;所述第一局部聚焦特征确定模块可以用于根据所述第一查询向量、所述第一键向量和所述第一值向量确定第一局部聚焦特征,所述第一局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;所述第一局部聚焦加权向量确定模块可以用于通过所述第一门控向量对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;所述第一全局聚焦加权向量确定模块可以用于通过所述第一权重向量对所述第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;所述加权融合模块可以用于将所述第一局部聚焦加权特征和所述第一全局聚焦加权特征进行融合,获得所述目标对象的诊断编码融合矩阵;所述风险预测模块可以用于根据所述诊断编码融合矩阵预测所述目标对象存在的风险。
本公开实施例提出一种电子设备,该电子设备包括:存储器和处理器;所述存储器用于存储计算机程序指令;所述处理器调用所述存储器存储的所述计算机程序指令,用于实现上述任一项所述的医疗就诊数据的数据处理方法。
本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序指令,实现如上述任一项所述的医疗就诊数据的数据处理方法。
本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序指令,该计算机程序指令存储在计算机可读存储介质中。从计算机可读存储介质读取该计算机程序指令,处理器执行该计算机程序指令,实现上述医疗就诊数据的数据处理方法。
本公开实施例提供的医疗就诊数据的数据处理装置、电子设备和计算机可读存储介质,一方面对目标对象的多个就诊记录中的诊断编码所组成的诊断编码矩阵的全局特征和局部特征进行提取和融合,可以准确的定位出风险和诊断编码之间的潜在关联;另一方面还通过对目标网络模型的训练获得局部特征和全局特征的权重,从而根据风险和诊断编码的潜在关联关系动态的确定局部特征和全局特征之间的权重比例,从而更加精准的从诊断编码矩阵中提取出与风险关联的特征,进而可以准确的预测出目标对象存在的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本公开实施例的医疗就诊数据的数据处理方法或医疗就诊数据的数据处理装置的场景示意图。
图2是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。
图3是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。
图4是根据一示例性实施例示出的一种基于医疗数据的风险预测方法的流程图。
图5是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。
图6是根据一示例性实施例示出的一种基于医疗数据的风险预测方法的流程图。
图7是根据一示例性实施例示出的一种目标网络模型的结构示意图。
图8是根据一示例性实施例示出的一种变形器的结构示意图。
图9是根据一示例性实施例示出的一种特征提取模型的结构示意图。
图10是根据一示例性实施例示出的一种医疗就诊数据的数据处理装置的框图。
图11示出了适于用来实现本公开实施例的的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本领域技术人员知道,本公开的实施方式可以为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件,驻留软件,微代码等),或者硬件和软件结合的形式。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本公开的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
另外需要说明的是,本发明的技术方案中,所涉及的用户个人信息的收集、使用、保存、共享和转移等处理,均符合相关法律法规的规定,且需要告知用户并获得用户的同意或授权,当适用时,对用户个人信息进行了去标识化和/或匿名化和/或加密的技术处理。
电子病历数据由一组有时间顺序的就诊信息组成,而在每个就诊记录中,都有由描述该次就诊患者症状的ICD(international lassification of diseases,国际疾病分类)编码所组成的一组无顺序的诊断代码序列。
一般来说,一个患者在确诊某个疾病前通常可能会多次就诊,每次就诊均会有对应的就诊记录,每个就诊记录中均可能会有一个、两个甚至多个就诊编码,该就诊编码可以用来描述患者症状或者异物状态等。
基于患者的多个就诊记录,本公开提出了一种基于局部-全局的transformer的新型风险症状关联性分析方法,该方法可以通过一个改进的transformer模块实现面向诊断代码层面的局部信息建模,和面向问诊记录层面的全局上下文信息的建模,旨在构建融合医疗健康与现代科学的人工智能技术体系,为临床医生面对患者的突发性疾病进行风险预测时提供更科学的辅助支持。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的医疗就诊数据的数据处理方法或医疗就诊数据的数据处理装置的场景示意图。
请参考图1,其示出了本公开一个示例性实施例提供的实施环境的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
服务器105可例如获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,诊断编码矩阵是根据多个就诊记录中的诊断编码生成的;服务器105可例如通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元是在目标网络模型的训练过程中获得的,其中第一值向量聚焦于诊断编码矩阵的全局特征;服务器105可例如根据第一查询向量、第一键向量和第一值向量确定第一局部聚焦特征,第一局部聚焦特征聚焦于诊断编码矩阵的局部特征;服务器105可例如通过第一门控向量对第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;服务器105可例如通过第一权重向量对第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;服务器105可例如将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵;服务器105可例如根据诊断编码融合矩阵预测目标对象存在的风险。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
参照图2,本公开实施例提供的医疗就诊数据的数据处理方法可以包括以下步骤。
步骤S202,获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,诊断编码矩阵是根据多个就诊记录中的诊断编码生成的。
在一些实施例中,目标对象(如患者)在不舒服时可能会进行一次、两次或者多次就诊以确定患者所患的疾病,每次就诊都会有对应的就诊记录,而每个就诊记录中都有描述该次就诊患者症状的诊断编码组成的一组无顺序的诊断代码,其中一次就诊记录中可以有一个、两个或者多个诊断编码。该诊断编码可例如是ICD编码,但本公开并不限于此。
在一些实施例中,上述诊断编码可以是根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合的编码。
在一些实施例中,可以获取目标对象在过去一段时间内(如三个月内、两个月内或者一个月内)一次、两次或者多次就诊的就诊记录,其中每个就诊记录中均可能会包括一个、两个或者多个就诊编码,每个就诊编码可以用来描述一种症状或者异常发现物(如咳嗽、发烧、肺部有白色磨砂阴影等)。
在一些实施例中,可以根据目标对象上述多个就诊记录中的诊断编码生成诊断编码矩阵,例如可以按列记录第i个就诊记录对应的就诊向量,该就诊向量/>可以是一种稀疏向量,在该就诊向量/>中可以包括多个就诊编码/>对应的稀疏值/>,若在该第i次就诊记录中存在第j个就诊编码/>,则在该就诊编码对应的稀疏值/>位置处设置/>,其它的设置/>,其中i为大于或者等于1且小于或者等于目标对象的就诊记录个数的整数,j为大于或者等于1且小于或者等于就诊编码个数的整数。
例如,每个诊断编码代表某些确定疾病的独特症状或异常发现物,并且,其中1出现在第j行。因此,每次就诊/>是由稀疏向量表示,由于在每次就诊中可能包括多种诊断编码,则在第/>次就诊中包含的每一个诊断编码/>对应的位置处,均设置/>,否则/>。
步骤S204,通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元是在目标网络模型的训练过程中获得的,其中第一值向量聚焦于诊断编码矩阵的全局特征。
在一些实施例中,上述变形器可以是本公开提出的一种改进了的transformer变形器。该变形器可以是一头(head)变形器,可以是两头(head)变形器,还可以是多头(head)变形器等,本实施例将以变形器包括一头为例进行说明,但是本公开对此不做限制。
图8是根据一示例性实施例示出的一种变形器的结构示意图。
如图8所示,上述一头变形器可以包括多个权重单元(如第一权重单元、第二权重单元/>、第三权重单元/>、第四权重单元/>和第五权重单元/>),其中上述各个权重单元均是在目标网络模型的训练过程中训练出来的。
在一些实施例中,如图8所示,可以通过确定第一查询向量/>,通过确定第一键向量/>,通过/>确定第一值向量/>,通过确定第一门控向量,通过/>确定第一权重向量。
其中,上述可以是诊断编码矩阵H,也可以是通过/>增加过位置编码PE的诊断编码矩阵。其中,H可以是诊断编码矩阵。
在一些实施例中,通过训练后的第三权重单元确定的第一值向量可以聚焦于诊断编码矩阵的全局特征。
步骤S206,根据第一查询向量、第一键向量和第一值向量确定第一局部聚焦特征,第一局部聚焦特征聚焦于诊断编码矩阵的局部特征。
在一些实施例中,通过上述第一查询向量、第一键向量和第一值向量确定的第一局部聚焦特征可以聚焦于诊断编码矩阵的局部特征。
如图8所示,可以根据确定第一局部聚焦特征。其中,/>是第一查询向量/>的转置、/>是第一键向量、/>是第一值向量。
步骤S208,通过第一门控向量对第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量。
在一些实施例中,本实施例提供的技术方案,还提供了一个第一门控向量,如图8所示,可以通过获得第一局部聚焦加权向量。其中,/>代表sigmoid激活函数,/>代表ReLU激活函数。
可以理解的是,该第一门控向量可以通过训练过程动态的调整聚焦于诊断编码矩阵的局部特征的第一局部聚焦特征的权重,从而更好的挖掘目标对象的风险情况与诊断编码之间的关联关系。
步骤S210,通过第一权重向量对第一键向量的权重进行调节处理,获得第一全局聚焦加权向量。
如图8所示,可以通过第一权重向量对第一键向量的权重进行调节,如通过对第一键向量的权重/>进行调节处理。
可以理解的是,该第一权重向量可以通过训练过程动态的调整聚焦于诊断编码矩阵的全局特征的第一键向量的权重,从而更好的挖掘目标对象的风险情况与诊断编码之间的关联关系。
通过上述全局特征和局部特征之间的权重的动态调整,可以更好的挖掘目标对象的风险情况与诊断编码之间的关联关系,从而更好的预测目标对象的风险情况。
步骤S212,将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵。
在一些实施例中,可以通过,将第一局部聚焦加权特征/>和第一全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵。
步骤S214,根据诊断编码融合矩阵预测目标对象存在的风险。
在一些实施例中,可以通过分类器(如softmax)等对诊断编码融合矩阵预测进行预测处理,以预测目标对象存在的风险。
上述实施例提供的技术方案,一方面可以通过第一权重单元、第二权重单元和第三权重单元充分挖掘诊断矩阵中的局部特征和全局特征;另一方面,可以通过目标神经网络的训练过程获得的第四权重单元和第五权重单元对上述全局特征和局部特征的权重进行动态调整,以更好的挖掘目标对象的风险情况与诊断编码之间的关联关系。通过上述步骤,可以准确的预测目标对象的风险情况。
图3是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。
参考图3,上述风险预测方法可以包括以下步骤。
步骤S302,获取目标对象对应的诊断编码稀疏矩阵,其中诊断编码稀疏矩阵是根据各个就诊记录对应的就诊稀疏向量生成的。
上述稀疏向量以及诊断编码稀疏矩阵的生成可以参考图2所述实施例,本实施例不再赘述。
步骤S304,通过目标网络模型的第一特征提取模块对各个就诊记录对应的就诊稀疏向量进行嵌入特征提取处理,确定各个就诊记录对应的就诊嵌入向量。
在一些实施例中,目标网络模型不仅可以包括变形器(如一头变形器、二头变形器或者多头变形器),还可以包括第一特征提取模块。
在一些实施例中,在通过变形器对诊断编码矩阵处理之前,可以使用第一特征提取模块对诊断编码矩阵进行处理。
在一些实施例中,可以通过目标网络模型的第一特征提取模块对各个就诊记录对应的就诊稀疏向量进行嵌入特征提取处理,确定各个就诊记录对应的就诊嵌入向量。
上述第一特征提取模块是按照就诊记录对诊断编码矩阵进行嵌入特征提取的,通过上述方法可以提取出每次就诊记录中对应的嵌入特征信息,即单次就诊信息。
步骤S306,根据各个就诊记录对应的就诊嵌入向量,生成诊断嵌入矩阵。
在一些实施例中,可以按列将各个就诊记录对应的就诊嵌入向量拼接,以生成诊断嵌入矩阵,以便根据该诊断嵌入矩阵预测目标对象存在的风险。
步骤S308,根据各个就诊嵌入向量确定诊断嵌入矩阵中的各个就诊嵌入向量对应的就诊加权权重。
在一些实施例中,在获得就诊嵌入向量后,还可以根据各个就诊嵌入向量确定诊断嵌入矩阵中的各个就诊嵌入向量对应的就诊加权权重,例如确定各个就诊嵌入向量的比重以作为该就诊加权权重。
步骤S310,通过就诊加权权重对各个就诊嵌入向量分别进行权重调节处理,确定加权后就诊嵌入向量。
步骤S312,根据加权后就诊嵌入向量生成诊断编码矩阵。
通过上述方法,一方面可以按照就诊记录对诊断编码矩阵进行嵌入特征提取,以提取出每次就诊记录中对应的嵌入特征信息,即单次就诊信息;另一方面还可以确定各个就诊记录对应的就诊嵌入向量的权重,从而通过该权重对各个就诊嵌入向量进行权重调节,从而生成该诊断编码矩阵。通过上述方法可以更换的挖掘每个就诊记录中的诊断信息,从而更准确的预测目标对象的风险状况。
图4是根据一示例性实施例示出的一种基于医疗数据的风险预测方法的流程图。
参考图4,上述基于医疗数据的风险预测方法可以包括以下步骤。
步骤S402,获取目标对象的多个就诊记录,多个就诊记录按时间顺序排列。
在一些实施例中,可以按照就诊时间顺序对目标对象的多个就诊录进行排序。
步骤S404,根据各个就诊记录的至少一个诊断编码生成各个就诊记录对应的就诊稀疏向量,其中当就诊稀疏向量的稀疏值为1时表示目标对象存在稀疏值对应的诊断编码所对应的症状或者异常发现物。
在一些实施例中,可以根据各个就诊记录中的诊断编码生成各个就诊记录对应的就诊稀疏向量,其中一个就诊记录生成一个就诊稀疏向量。
步骤S406,根据各个就诊记录对应的就诊稀疏向量生成诊断编码稀疏矩阵。
在一些实施例中,可以按照就诊时间将上述就诊稀疏向量拼接,以生成诊断编码稀疏矩阵。
图5是根据一示例性实施例示出的一种医疗就诊数据的数据处理方法的流程图。
步骤S502,根据诊断编码融合矩阵,确定各个诊断编码在目标对象的各个就诊记录下的编码嵌入表示。
在一些实施例中,上述诊断编码融合矩阵的每一列(或者每一行)均对应一个就诊记录,每一行(或者每一列)均对应一个诊断编码。因此,可以根据诊断编码融合矩阵确定各个诊断编码在目标对象的各个就诊记录下的编码嵌入表示。
步骤S504,通过目标网络模型的第二特征提取模块,对各个诊断编码对应的编码嵌入向量分别进行特征提取处理,确定各个诊断编码对应的编码密集向量。
在一些实施例中,目标网络模型在包括变形器的同时还可以包括第二特征提取模块。该第二特征提取模块可以对各个诊断编码对应的编码嵌入向量分别进行特征提取,以确定各个诊断编码对应的编码密集向量,该编码密集向量可以提取各个诊断编码在各个就诊记录间的就诊信息。
步骤S506,根据各个编码嵌入向量对应的编码密集向量生成编码密集矩阵。
在一些实施例中,可以直接将各个编码嵌入向量对应的编码密集向量拼接生成编码密集矩阵。
在一些实施例中,还可以根据各编码密集向量确定各个编码密集向量对应的编码加权权重;然后根据编码加权权重对各个编码密集向量分别进行调节处理,确定加权后编码密集向量;最后根据加权后编码密集向量生成编码密集矩阵,以便根据编码密集矩阵预测目标对象存在的风险。
在一些实施例中,可以根据编码密集矩阵预测目标对象存在的风险。
上述方法,一方面考虑了就诊编码在不同次就诊记录中的编码特征并进行了特征提取;另一方面根据各个编码密集向量的占比对各个编码密集向量进行拼接,突出重要的编码密集向量,弱化不重要的编码密集向量。总而言之,通过上述技术方案可以更换的提取就诊记录间的关联关系,从而更加准确的预测目标对象的风险情况。
图6是根据一示例性实施例示出的一种基于医疗数据的风险预测方法的流程图。
在一些实施例中,目标网络模型可以包括一头的变形器,还可以包括两头的变形器,还可以包括多头的变形器,本公开对此不做限制。图2所示实施例对一头变形器进行了解释说明,下面将结合图2和图6所示实施例对两头变形器进行解释说明,本领域技术人员可以在此基础上实现多头变形器。由于图2已对两头变形器中的其中一头进行了说明,本实施例不再赘述。
在一些实施例中,目标网络模型的变形器还可以包括第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元。可以理解的是,上述第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元与第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元类似,并且也是在目标网络模型的训练过程中获得的。
步骤S602,通过第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第二查询向量、第二键向量、第二值向量、第二门控向量和第二权重向量,其中第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元是在目标网络模型的训练过程中获得的,其中第二值向量聚焦于诊断编码矩阵的全局特征。
步骤S604,根据第二查询向量、第二键向量和第二值向量确定第二局部聚焦特征,第二局部聚焦特征聚焦于诊断编码矩阵的局部特征。
步骤S606,通过第二门控向量对第二局部聚焦特征的权重进行调节,获得第二局部聚焦加权向量。
步骤S608,通过第二权重向量对第二键向量的权重进行调节处理,获得第二全局聚焦加权向量。
步骤S610,将第一局部聚焦加权特征、第一全局聚焦加权特征、第二局部聚焦加权特征和第二全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵。
上述第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元的处理过程可以参考第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元的处理过程,本实施例不再赘述。
上面介绍了目标网络模型的使用过程,下面将以待训练对象对应的就诊记录为例介绍一下目标网络模型的训练过程,具体可以包括以下步骤。
获取待训练对象的多个就诊记录对应的诊断编码训练矩阵,其中每个就诊记录包括至少一个诊断编码,诊断编码训练矩阵是根据待训练对象的多个就诊记录中的诊断编码生成的;通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对诊断编码训练矩阵进行加权处理,获得待训练对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元是在目标网络模型的训练过程中获得的,其中第一值向量聚焦于诊断编码训练矩阵的全局特征;根据第一查询向量、第一键向量和第一值向量确定第一局部聚焦特征,第一局部聚焦特征聚焦于诊断编码训练矩阵的局部特征;通过第一门控向量对第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;通过第一权重向量对第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合,获得待训练对象的诊断编码融合矩阵;根据诊断编码融合矩阵预测待训练对象存在的预测风险,以便根据待训练对象的预测风险以及待训练对象的实际风险训练目标网络模型。
可以理解的是,目标网络的训练过程和使用过程是一致的,只是目标网络的训练过程中多了一个根据预测损失反向修改目标网络参数的步骤。由于根据预测损失对网络参数进行反向调整的过程是容易确定的,本公开不再赘述。
下面公开将以一具体实施例对上述基于医疗数据的风险预测方法进行详细说明,具体可以包括以下步骤。
(1)将电子病历(一种就诊记录数据)输入ETL(ETL数据清洗模块数据仓库技术)数据清洗模块。获取电子病历中对应的历史患者数据,并通过抽取、转换和加载等步骤完成初步数据清洗,完成去隐私与数据质量管理。
需要注意的是,上述电子病历的收集及使用是需要满足相关法律法规的,例如是需要得到用户同意的,且收集到的用户病历只能在用户同意的范围内使用。
(2)病案编码与特征数据关联模块。通过电子病历系统的患者识别码ID进行脱敏数据关联,筛选特征数据。
(3)电子病历数据预处理模块。对输入数据进行归一化处理。
(4)数据质控模块。进行分类标签校准,完成纳入排除标准检查。
(5)特征工程模块。将处理后的样本数据分为训练集、测试集、验证集,每个样本包括患者的就诊时间数据、每次就诊获得的ICD-10诊断编码,以及患者级的正负样本标签(例如当患者在几次就诊之后被确诊患有某种疾病,则该患者对应的就诊记录是正样本;当患者在几次就诊之后被确定没有患上述疾病,则该患者对应的就诊记录是负样本)。
(6)特征提取模块。将训练数据和验证数据输入训练模型(如本公开中的目标网络模型)中,得到预测的分类结果,将所述预测的分类结果与实际结果进行比对,根据对比结果目标网络模型,得到风险分析模型。
(7)该风险模型是对注意力权重的分配基于症状与疾病的相关性,与疾病高度相关的症状会被分配到更多的注意力权重,相反,当症状与疾病不相关的时会被分配更少的注意力权重,以此方式来过滤电子病历数据中的噪声信息。
(8)训练模型包括诊断层级结构特征编码模块,自注意力编码模块,就诊层级结构特征编码模块。
(9)预测应用模块。将测试集数据输入步骤(7)中的特征推理模型,完成测试集中患者最终罹患目标疾病的概率,完成疾病与症状的关联性分析任务。
具体而言,首先访问电子病历数据存储器,通过ETL模块完成数据抽取、清洗、转换工作。其次,通过电子病历系统的患者识别码ID进行时空脱敏数据关联,完成特征数据筛选。对筛选数据进行归一化预处理和包括校准与检查的质量控制工作。最后,将处理后的样本数据分为训练集、测试集、验证集,每个样本包括患者的就诊时间数据、每次就诊获得的ICD-10诊断编码,以及患者级的正负样本标签。
电子病历数据使用两级分层结构来捕捉由高维编码系统ICD-10编码的病人的医疗历程(一级可以是对各个就诊记录中的特征进行提取,另一级可以是对诊断编码在不同就诊记录中的特征进行提取),数据内容包括患者按时间顺序的多次就诊以及每次就诊患者症状的ICD编码,将患者的历史诊断结果使用“独热编码”方式构成稀疏编码矩阵。
将患者的稀疏编码矩阵输入风险分析模型中,模型包括数诊断层级结构特征编码模块(如图7中的第一特征提取模块701)、自注意力编码模块(如图7中的变形器702)和就诊层级结构特征编码模块(如图7中的第二特征提取模块703)。
在一些实施例中,图7中的诊断层级结构特征编码模块可以由3层前馈神经网络FFN和激活函数(如softmax激活函数)层组成。
在一些实施例中,上述前馈神经网络可以是MLP(Multilayer Perception,多层感知机)网络。
在一些实施例中,图7中的诊断层级结构特征编码模块可以包括如图9所示的多层感知机网络901、激活函数902以及权重加权结构903。
在一些实施例中,将稀疏特征矩阵输入诊断层级结构特征编码模块可以得到表征诊断代码层次结构的密集注意力特征矩阵。
参考图8,图7中的自注意力模块可以由改进的基于transformer的自注意力机制组成,引入了门控机制Wg和Wm,该门控机制Wg和Wm用于强调自注意力模块对局部特征和全局特征的独立提取能力。
如图7所示,本公开还在自注意力模块中添加位置编码和跳跃-链接来避免梯度下降过程中的语义信息的丢失。
在一些实施例中,图7中的就诊层级结构特征编码模块结构与诊断层级结构特征编码模块类似,同样可以由3层前馈神经网络(FFN)和softmax层组成,经模块输出得到包含就诊时间顺序信息的整体语义信息,本实施例不再赘述。
在一些实施例中,模型训练期间损失函数可以使用交叉损失。
在一些实施例中,模型推理期间,可以使用ROC(一种测评指标)、F1(一种测评指标)、精确率或召回率等指标来评估模型性能。
上述实施例的具体的技术方案步骤可以如下所示。
(1)获取电子病历样本数据,每个样本包括患者的电子病历数据及标签。
(1.1)对于步骤(1)电子病历数据使用两级分层结构来捕捉由高维编码系统ICD-10编码的病人的医疗历程。
(1.2)数据内容包括患者按时间顺序的多次就诊以及每次就诊患者症状的ICD编码。
(1.3)数据样本包含正样本和负样本,以心衰疾病为例,正样本为经过5次诊断后最终发生心脏衰竭的患者数据,负样本为有相似症状但还未患有心脏衰竭疾病的患者数据。
(1.4)将样本数据分为训练集、验证集、测试集三类,输入训练模型。
(2)将训练样本数据输入数据编码模块进行数据转换得到稀疏矩阵。
(2.1)对于每个患者p的历史诊断结果表示为一个顺序列表,其中/>是第i次就诊的诊断结果,n是访问的数量。
(2.2)对于每次就诊的,它由ICD-10编码的子集/>构成,其中m是数据集中唯一的诊断代码的数量。
(2.3)每个代码代表某些确定疾病的独特症状或异常发现物,并且,其中1出现在第j行。因此,每次就诊/>是由稀疏列向量表示,其中,如果诊断结果包含/>,第j个元素/>,否则/>。
(2.4)风险预测任务利用患者的稀疏矩阵提取隐藏的疾病进展信息,使得模型可以重点关注与目标疾病高度相关的诊断信息,并且忽视关联性不大的诊断噪声,旨在准确预测病人的健康状况。
(2.5)根据(1.3)中给出的患者p的真实健康状况标签y,将疾病与症状的关联性分析问题看作是一个二元分类问题,当病人存在患目标疾病的风险时,y被设置为1,否则为0。函数f的目的是提供一个准确的预测,使与y尽可能接近。
(3)步骤(2)输出的稀疏矩阵输入诊断层级结构特征编码模块。
(3.1)将(2.3)中的每次就诊记录中的诊断代码编码输入图9中的前馈神经网络FFN中得到利于表征学习的密集嵌入/>。
通常情况下,FNN是指一种神经网络模型,其中信息从输入层流向输出层,不涉及循环或反馈。FNN可以是单层的(只有输入和输出层),也可以是多层的(有一个或多个隐藏层)。在这个意义上,MLP也是FNN的一种。
其中,为激活函数。由密集嵌入集合/>表示诊断代码集C。对于患者p的第i次就诊,得到密集嵌入集合/>,其中,若/>,则/>,否则/>。
(3.2)经过3层FFN后得到每个诊断代码嵌入的注意力权重分数,接下来使用softmax函数将注意力分数归一化,得到归一化的权重。
(3.3)对于患者p的第i次就诊,为每一个诊断编码赋予不同的权重,构成单次就诊嵌入。因此,获得患者p的包含所有就诊的诊断代码层次结构注意力特征H。
(4)将步骤(3.3)的包含诊断代码层次结构的密集矩阵H输入基于局部-全局的时间顺序特征提取模块,该模块由基于transformer的改进的自注意力机制组成,模块结构见图8所示。并添加了跳跃-链接来避免梯度下降过程中的语义信息的丢失。
(4.1)本实施例提出一个改进的自注意力块更好的对诊断编码矩阵实现上下文关系建模。在自注意力中使用多头自关注机制来关注特征,共有l层,每一层都有h个head。
(4.2)在(4.1)中Transformer块的输入层加入位置编码PE。
(4.3)在(4.1)中Transformer块里,对于transformer中的每一个head,经过(4.2)后再由线性变换生成query、key和value。
其中,分别代表/>,是可学习的映射矩阵。
(4.4)进一步,计算transformer中query和key之间的相似度来捕获特征的长距离依赖性。将注意力集中在与目标疾病高度相关的诊断编码嵌入,以避免由于无关的诊断编码而导致的模型过拟合。然后,将得到的权重系数矩阵用于对当前特征进行加权。
其中,y表示transformer块的输出特征,为softmax函数。
(4.5)引入两个权重单元,分别为:引入门控单元以让特征向量聚焦于与任务高度相关的就诊间的诊断编码、以及引入权重矩阵/>以允许模型的注意力不局限于短期就诊关联范围间而是以更大的感受野捕获长期依赖性特征。改进的自注意力块形式为:自适应不断改进的。
/>
其中,代表sigmoid激活函数,/>代表ReLU激活函数,/>和/>为可学习的权重矩阵,改进的自注意力块结构见图8所示。
(4.6)将h个head的所有特征串联起来,并进行线性变换,将其投射回原始空间。
其中Concate表示特征连接操作,是一个线性变换矩阵。输出,对于每个特征/>,它是带有长期依赖信息和短期关联信息的聚合特征。其中/>由第i个编码特征在不同次就诊记录中的嵌入表示组成。
(5)经过就诊层级结构特征编码模块。
(5.1)步骤(4)的输出经过就诊层级结构特征编码模块从所有的就诊特征中提取整体语义。就诊层级结构特征编码模块与步骤(3)中的诊断层级结构特征编码模块结构类似,它由3层前馈网络FFN来学习注意分数,经过softmax函数得到归一化的注意力权重。
(5.2)用于关联性分析的综合注意力特征为:
其中,。
(5.3)由步骤(2.4)提出的关联性分析模型被改写为:
其中,是sigmoid函数,/>可学习权重,/>是偏置项。
(6)损失函数。使用交叉损失函数来进行模型训练。
有了训练集T,我们用二元交叉熵损失L来训练模型,得到学习的参数θ。
(7)对步骤(5)所获得的Transformer-MHP模型进行测试和评估,验证其准确性和可解释性。
本实施例基于患者就诊时间序列和ICD诊断编码信息,提出了一种用于电子病历数据的风险分析模型构建方法,利用诊断代码层次结构中的注意机制,能够保留诊断细节,并根据不同诊断代码与相应疾病的相关性为其分配灵活的注意权重来区分每次访问中的诊断代码的重要性。
本实施例提供的改进的自注意力模块可以通过Transformer编码器同时提取长期依赖关系和短期关联关系,更好地利用长期依赖关系和短期关联关系来学习两个互补的时间信息。首先,长期依赖性是关于在完整的医疗过程中每次就诊与其他就诊的关系的时间信息。它们通过整合所有就诊的诊断结果,帮助克服每次就诊中的个人偏见。另外,短期相关性是指在短期内每次就诊与其他就诊之间的关系。由于病人在每个疾病发展阶段都会有与邻近就诊相关的症状,因此,它们对于消除电子病历数据中的不相关信息是至关重要的。
此外,就诊层次中的关注机制通过对相关度较高的就诊给予更多的关注,学习整个就诊历史的综合特征,找出与疾病进展无关的症状并过滤掉噪音,自动提取相邻访问中疾病进展的潜在局部时间模式。
总之,本实施例提出的模型构建方法不仅充分地利用了电子病历的内部层次结构,而且还捕捉到了不同时间访问中疾病进展的不同颗粒度,可以帮助模型学习诊断结果和目标疾病之间更好的相关性,同时具有更好的稳健性和可解释性。
基于同一发明构思,本公开实施例中还提供了一种医疗就诊数据的数据处理装置,如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
图10是根据一示例性实施例示出的一种医疗就诊数据的数据处理装置的框图。参照图10,本公开实施例提供的医疗就诊数据的数据处理装置1000可以包括:诊断编码矩阵获取模块1001、加权处理模块1002、第一局部聚焦特征确定模块1003、第一局部聚焦加权向量确定模块1004、第一全局聚焦加权向量确定模块1005、加权融合模块1006和风险预测模块1007。
其中,诊断编码矩阵获取模块1001可以用于获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,诊断编码矩阵是根据多个就诊记录中的诊断编码生成的;加权处理模块1002可以用于通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元是在目标网络模型的训练过程中获得的,其中第一值向量聚焦于诊断编码矩阵的全局特征;第一局部聚焦特征确定模块1003可以用于根据第一查询向量、第一键向量和第一值向量确定第一局部聚焦特征,第一局部聚焦特征聚焦于诊断编码矩阵的局部特征;第一局部聚焦加权向量确定模块1004可以用于通过第一门控向量对第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;第一全局聚焦加权向量确定模块1005可以用于通过第一权重向量对第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;加权融合模块1006可以用于将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵;风险预测模块1007可以用于根据诊断编码融合矩阵预测目标对象存在的风险。
此处需要说明的是,上述诊断编码矩阵获取模块1001、加权处理模块1002、第一局部聚焦特征确定模块1003、第一局部聚焦加权向量确定模块1004、第一全局聚焦加权向量确定模块1005、加权融合模块1006、风险预测模块1007对应于方法实施例中的S202~S214,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一些实施例中,诊断编码矩阵获取模块1001可以包括:诊断编码稀疏矩阵获取子模块、就诊嵌入向量确定子模块以及诊断嵌入矩阵确定子模块。
其中,诊断编码稀疏矩阵获取子模块可以用于获取目标对象对应的诊断编码稀疏矩阵,其中诊断编码稀疏矩阵是根据各个就诊记录对应的就诊稀疏向量生成的;就诊嵌入向量确定子模块可以用于通过目标网络模型的第一特征提取模块对各个就诊记录对应的就诊稀疏向量进行嵌入特征提取处理,确定各个就诊记录对应的就诊嵌入向量;诊断嵌入矩阵确定子模块可以用于根据各个就诊记录对应的就诊嵌入向量,生成诊断嵌入矩阵,以便根据诊断嵌入矩阵生成诊断编码矩阵。
在一些实施例中,诊断嵌入矩阵确定子模块可以包括:就诊加权权重确定单元、加权后就诊嵌入向量确定单元以及诊断编码矩阵确定单元。
其中,就诊加权权重确定单元可以用于根据各个就诊嵌入向量确定诊断嵌入矩阵中的各个就诊嵌入向量对应的就诊加权权重;加权后就诊嵌入向量确定单元可以用于通过就诊加权权重对各个就诊嵌入向量分别进行权重调节处理,确定加权后就诊嵌入向量;诊断编码矩阵确定单元可以用于根据加权后就诊嵌入向量生成诊断编码矩阵。
在一些实施例中,诊断编码稀疏矩阵获取子模块可以包括:就诊记录获取单元、就诊稀疏向量确定单元和诊断编码稀疏矩阵生成单元。
其中,就诊记录获取单元可以用于获取目标对象的多个就诊记录,多个就诊记录按时间顺序排列;就诊稀疏向量确定单元可以用于根据各个就诊记录的至少一个诊断编码生成各个就诊记录对应的就诊稀疏向量,其中当就诊稀疏向量的稀疏值为1时表示目标对象存在稀疏值对应的诊断编码所对应的症状或者异常发现物;诊断编码稀疏矩阵生成单元可以用于根据各个就诊记录对应的就诊稀疏向量生成诊断编码稀疏矩阵。
在一些实施例中,风险预测模块1007可以包括:编码嵌入表示确定子模块、编码密集向量确定子模块、编码密集矩阵生成子模块和风险预测子模块。
其中,编码嵌入表示确定子模块可以用于根据诊断编码融合矩阵,确定各个诊断编码在目标对象的各个就诊记录下的编码嵌入表示;编码密集向量确定子模块可以用于通过目标网络模型的第二特征提取模块,对各个诊断编码对应的编码嵌入向量分别进行特征提取处理,确定各个诊断编码对应的编码密集向量;编码密集矩阵生成子模块可以用于根据各个编码嵌入向量对应的编码密集向量生成编码密集矩阵;风险预测子模块可以用于根据编码密集矩阵预测目标对象存在的风险。
在一些实施例中,风险预测子模块可以包括:编码加权权重确定单元、加权后编码密集向量确定单元和编码密集矩阵生成单元。
其中,编码加权权重确定单元可以用于根据各编码密集向量确定各个编码密集向量对应的编码加权权重;加权后编码密集向量确定单元可以用于根据编码加权权重对各个编码密集向量分别进行调节处理,确定加权后编码密集向量;编码密集矩阵生成单元可以用于根据加权后编码密集向量生成编码密集矩阵,以便根据编码密集矩阵预测目标对象存在的风险。
在一些实施例中,变形器还包括第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元;其中,加权融合模块1006可以包括:第二加权处理子模块、第二局部聚焦特征确定子模块、第二局部聚焦加权向量确定子模块、第二全局聚焦加权向量确定子模块和诊断编码融合矩阵生成子模块。
其中,第二加权处理子模块可以用于通过第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第二查询向量、第二键向量、第二值向量、第二门控向量和第二权重向量,其中第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元是在目标网络模型的训练过程中获得的,其中第二值向量聚焦于诊断编码矩阵的全局特征;第二局部聚焦特征确定子模块可以用于根据第二查询向量、第二键向量和第二值向量确定第二局部聚焦特征,第二局部聚焦特征聚焦于诊断编码矩阵的局部特征;第二局部聚焦加权向量确定子模块可以用于通过第二门控向量对第二局部聚焦特征的权重进行调节,获得第二局部聚焦加权向量;第二全局聚焦加权向量确定子模块可以用于通过第二权重向量对第二键向量的权重进行调节处理,获得第二全局聚焦加权向量;诊断编码融合矩阵生成子模块可以用于将第一局部聚焦加权特征、第一全局聚焦加权特征、第二局部聚焦加权特征和第二全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵。
在一些实施例中,所述医疗就诊数据的数据处理装置还包括:训练模块,用于获取待训练对象的多个就诊记录对应的诊断编码训练矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码训练矩阵是根据所述待训练对象的多个就诊记录中的诊断编码生成的;通过所述目标网络模型中的所述变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对所述诊断编码训练矩阵进行加权处理,获得所述待训练对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码训练矩阵的全局特征;根据所述第一查询向量、所述第一键向量和所述第一值向量确定第一局部聚焦特征,所述第一局部聚焦特征聚焦于所述诊断编码训练矩阵的局部特征;通过所述第一门控向量对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;通过所述第一权重向量对所述第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;将所述第一局部聚焦加权特征和所述第一全局聚焦加权特征进行融合,获得所述待训练对象的诊断编码融合矩阵;根据所述诊断编码融合矩阵预测所述待训练对象存在的风险,以便根据所述待训练对象的预测风险以及所述待训练对象的实际风险训练所述目标网络模型。
由于装置1000的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
描述于本公开实施例中所涉及到的模块和/或子模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或子模块和/或单元也可以设置在处理器中。其中,这些模块和/或子模块和/或单元的名称在某种情况下并不构成对该模块和/或子模块和/或单元本身的限定。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块或程序段的一部分,上述模块或程序段的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序指令的组合来实现。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图11示出了适于用来实现本公开实施例的的电子设备的结构示意图。需要说明的是,图11示出的电子设备1100仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有电子设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括第一键向量盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入储存部分1108。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序指令。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序指令。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序指令可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,诊断编码矩阵是根据多个就诊记录中的诊断编码生成的;通过目标网络模型中的变形器的第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元分别对诊断编码矩阵进行加权处理,获得目标对象对应的第一查询向量、第一键向量、第一值向量、第一门控向量和第一权重向量,其中第一权重单元、第二权重单元、第三权重单元、第四权重单元和第五权重单元是在目标网络模型的训练过程中获得的,其中第一值向量聚焦于诊断编码矩阵的全局特征;根据第一查询向量、第一键向量和第一值向量确定第一局部聚焦特征,第一局部聚焦特征聚焦于诊断编码矩阵的局部特征;通过第一门控向量对第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权向量;通过第一权重向量对第一键向量的权重进行调节处理,获得第一全局聚焦加权向量;将第一局部聚焦加权特征和第一全局聚焦加权特征进行融合,获得目标对象的诊断编码融合矩阵;根据诊断编码融合矩阵预测目标对象存在的风险。。
根据本公开的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序指令,该计算机程序指令存储在计算机可读存储介质中。从计算机可读存储介质读取该计算机程序指令,处理器执行该计算机程序指令,实现上述实施例的各种可选实现方式中提供的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干计算机程序指令用以使得一台电子设备(可以是服务器或者终端设备等)执行根据本公开实施例的方法。
本领域技术人员在考虑说明书及实践在这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (9)
1.一种医疗就诊数据的数据处理装置,其特征在于,包括:
诊断编码矩阵获取模块,用于获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码矩阵是根据所述多个就诊记录中的诊断编码生成的,其中所述诊断编码用于描述患者症状或者异常发现物状态;
加权处理模块,用于通过目标网络模型中的transformer变形器的第一权重单元、第二权重单元/>、第三权重单元/>、第四权重单元/>和第五权重单元/>分别对所述诊断编码矩阵/>进行加权处理,获得所述目标对象对应的第一查询向量/>、第一键向量/>、第一值向量/>、第一门控向量/>和第一权重向量/>,其中,第一门控向量是通过公式/>确定的,第一权重向量是通过公式/>确定的,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码矩阵的全局特征;
第一局部聚焦特征确定模块,用于通过公式确定第一局部聚焦特征/>,所述第一局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;其中,/>是第一查询向量/>的转置;
第一局部聚焦加权特征确定模块,用于通过以使得所述第一门控向量/>对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权特征;其中,/>代表/>激活函数,/>代表激活函数;
第一全局聚焦加权特征确定模块,用于通过公式使得所述第一权重向量/>对所述第一键向量/>的权重进行调节处理,获得第一全局聚焦加权特征;
加权融合模块,用于通过公式将所述第一局部聚焦加权特征/>和所述第一全局聚焦加权特征/>进行融合,获得所述目标对象的诊断编码融合矩阵/>;
风险预测模块,用于通过分类器对所述诊断编码融合矩阵进行预测处理,以预测所述目标对象存在的风险。
2.根据权利要求1所述装置,其特征在于,所述诊断编码矩阵获取模块包括:
诊断编码稀疏矩阵获取子模块,用于获取所述目标对象对应的诊断编码稀疏矩阵,其中所述诊断编码稀疏矩阵是根据各个就诊记录对应的就诊稀疏向量生成的;
就诊嵌入向量确定子模块,用于通过所述目标网络模型的第一特征提取模块对各个就诊记录对应的就诊稀疏向量进行嵌入特征提取处理,确定各个就诊记录对应的就诊嵌入向量;
诊断嵌入矩阵确定子模块,用于根据各个就诊记录对应的就诊嵌入向量,生成诊断嵌入矩阵,以便根据所述诊断嵌入矩阵生成所述诊断编码矩阵。
3.根据权利要求2所述装置,其特征在于,所述诊断嵌入矩阵确定子模块包括:
就诊加权权重确定单元,用于根据各个就诊嵌入向量确定所述诊断嵌入矩阵中的各个就诊嵌入向量对应的就诊加权权重;
加权后就诊嵌入向量确定单元,用于通过所述就诊加权权重对各个就诊嵌入向量分别进行权重调节处理,确定加权后就诊嵌入向量;
诊断编码矩阵确定单元,用于根据加权后就诊嵌入向量生成所述诊断编码矩阵。
4.根据权利要求2所述装置,其特征在于,所述诊断编码稀疏矩阵获取子模块包括:
就诊记录获取单元,用于获取所述目标对象的多个就诊记录,所述多个就诊记录按时间顺序排列;
就诊稀疏向量确定单元,用于根据各个就诊记录的至少一个诊断编码生成各个就诊记录对应的就诊稀疏向量,其中当所述就诊稀疏向量的稀疏值为1时表示所述目标对象存在所述稀疏值对应的诊断编码所对应的症状或者异常发现物;
诊断编码稀疏矩阵生成单元,用于根据各个就诊记录对应的就诊稀疏向量生成所述诊断编码稀疏矩阵。
5.根据权利要求1所述装置,其特征在于,所述风险预测模块包括:
编码嵌入表示确定子模块,用于根据所述诊断编码融合矩阵,确定各个诊断编码在所述目标对象的各个就诊记录下的编码嵌入表示;
编码密集向量确定子模块,用于通过所述目标网络模型的第二特征提取模块,对各个诊断编码对应的编码嵌入向量分别进行特征提取处理,确定各个诊断编码对应的编码密集向量;
编码密集矩阵生成子模块,用于根据各个编码嵌入向量对应的编码密集向量生成编码密集矩阵;
风险预测子模块,用于根据所述编码密集矩阵预测所述目标对象存在的风险。
6.根据权利要求5所述装置,其特征在于,所述风险预测子模块包括:
编码加权权重确定单元,用于根据各编码密集向量确定各个编码密集向量对应的编码加权权重;
加权后编码密集向量确定单元,用于根据所述编码加权权重对各个编码密集向量分别进行调节处理,确定加权后编码密集向量;
编码密集矩阵生成单元,用于根据所述加权后编码密集向量生成所述编码密集矩阵,以便根据所述编码密集矩阵预测所述目标对象存在的风险。
7.根据权利要求1所述装置,其特征在于,所述变形器还包括第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元;其中,所述加权融合模块包括:
第二加权处理子模块,用于通过所述第六权重单元、第七权重单元、第八权重单元、第九权重单元和第十权重单元分别对所述诊断编码矩阵进行加权处理,获得所述目标对象对应的第二查询向量、第二键向量、第二值向量、第二门控向量和第二权重向量,其中所述第六权重单元、所述第七权重单元、所述第八权重单元、所述第九权重单元和所述第十权重单元是在所述目标网络模型的训练过程中获得的,其中所述第二值向量聚焦于所述诊断编码矩阵的全局特征;
第二局部聚焦特征确定子模块,用于根据所述第二查询向量、所述第二键向量和所述第二值向量确定第二局部聚焦特征,所述第二局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;
第二局部聚焦加权特征确定子模块,用于通过所述第二门控向量对所述第二局部聚焦特征的权重进行调节,获得第二局部聚焦加权特征;
第二全局聚焦加权特征确定子模块,用于通过所述第二权重向量对所述第二键向量的权重进行调节处理,获得第二全局聚焦加权特征;
诊断编码融合矩阵生成子模块,用于将所述第一局部聚焦加权特征、所述第一全局聚焦加权特征、所述第二局部聚焦加权特征和所述第二全局聚焦加权特征进行融合,获得所述目标对象的所述诊断编码融合矩阵。
8. 一种电子设备,其特征在于,包括:
存储器;以及
耦合到所述存储器的处理器,所述处理器被用于基于存储在所述存储器中的计算机程序指令,执行医疗就诊数据的数据处理方法,所述医疗就诊数据的数据处理方法包括:
获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码矩阵是根据所述多个就诊记录中的诊断编码生成的,其中所述诊断编码用于描述患者症状或者异常发现物状态;通过目标网络模型中的transformer变形器的第一权重单元、第二权重单元/>、第三权重单元/>、第四权重单元/>和第五权重单元/>分别对所述诊断编码矩阵/>进行加权处理,获得所述目标对象对应的第一查询向量/>、第一键向量/>、第一值向量/>、第一门控向量/>和第一权重向量/>,其中,第一门控向量是通过公式/>确定的,第一权重向量是通过公式/>确定的,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码矩阵的全局特征;根据通过公式/>确定第一局部聚焦特征/>,所述第一局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;其中,/>是第一查询向量/>的转置;通过/>以使得所述第一门控向量/>对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权特征;其中,/>代表/>激活函数,/>代表激活函数;通过公式/>使得所述第一权重向量/>对所述第一键向量/>的权重进行调节处理,获得第一全局聚焦加权特征;通过公式/>将所述第一局部聚焦加权特征/>和所述第一全局聚焦加权特征/>进行融合,获得所述目标对象的诊断编码融合矩阵/>;通过分类器对所述诊断编码融合矩阵/>进行预测处理,以预测所述目标对象存在的风险。
9.一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现医疗就诊数据的数据处理方法,所述医疗就诊数据的数据处理方法包括:获取目标对象的多个就诊记录对应的诊断编码矩阵,其中每个就诊记录包括至少一个诊断编码,所述诊断编码矩阵是根据所述多个就诊记录中的诊断编码生成的,其中所述诊断编码用于描述患者症状或者异常发现物状态;通过目标网络模型中的transformer变形器的第一权重单元、第二权重单元/>、第三权重单元/>、第四权重单元/>和第五权重单元/>分别对所述诊断编码矩阵/>进行加权处理,获得所述目标对象对应的第一查询向量/>、第一键向量/>、第一值向量/>、第一门控向量/>和第一权重向量/>,其中,第一门控向量是通过公式/>确定的,第一权重向量是通过公式/>确定的,其中所述第一权重单元、所述第二权重单元、所述第三权重单元、所述第四权重单元和所述第五权重单元是在所述目标网络模型的训练过程中获得的,其中所述第一值向量聚焦于所述诊断编码矩阵的全局特征;根据通过公式/>确定第一局部聚焦特征/>,所述第一局部聚焦特征聚焦于所述诊断编码矩阵的局部特征;其中,/>是第一查询向量/>的转置;通过以使得所述第一门控向量/>对所述第一局部聚焦特征的权重进行调节,获得第一局部聚焦加权特征;其中,/>代表/>激活函数,/>代表激活函数;通过公式/>使得所述第一权重向量/>对所述第一键向量/>的权重进行调节处理,获得第一全局聚焦加权特征;通过公式/>将所述第一局部聚焦加权特征/>和所述第一全局聚焦加权特/>进行融合,获得所述目标对象的诊断编码融合矩阵/>;通过分类器对所述诊断编码融合矩阵/>进行预测处理,以预测所述目标对象存在的风险。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310683412.9A CN116403728B (zh) | 2023-06-09 | 2023-06-09 | 医疗就诊数据的数据处理装置和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310683412.9A CN116403728B (zh) | 2023-06-09 | 2023-06-09 | 医疗就诊数据的数据处理装置和相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403728A CN116403728A (zh) | 2023-07-07 |
CN116403728B true CN116403728B (zh) | 2023-08-29 |
Family
ID=87020315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310683412.9A Active CN116403728B (zh) | 2023-06-09 | 2023-06-09 | 医疗就诊数据的数据处理装置和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403728B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116759041B (zh) * | 2023-08-22 | 2023-12-22 | 之江实验室 | 一种考虑诊疗事件关系的医疗时序数据生成方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741395A (zh) * | 2016-02-03 | 2016-07-06 | 慧锐通智能科技股份有限公司 | 基于二维码和人脸识别的门禁访问方法和系统 |
CN110265118A (zh) * | 2019-06-14 | 2019-09-20 | 吉林大学第一医院 | 一种肺部影像诊断报告质量的评估方法和系统 |
CN113434626A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN113889262A (zh) * | 2021-09-29 | 2022-01-04 | 平安国际智慧城市科技股份有限公司 | 基于模型的数据预测方法、装置、计算机设备和存储介质 |
CN114238558A (zh) * | 2021-11-12 | 2022-03-25 | 北京惠及智医科技有限公司 | 一种电子病历的质检方法、装置、存储介质及设备 |
CN114613462A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 医疗数据处理方法和装置、电子设备及存储介质 |
CN114999637A (zh) * | 2022-07-18 | 2022-09-02 | 华东交通大学 | 多角度编码与嵌入式互学习的病理图像诊断方法与系统 |
CN115375698A (zh) * | 2022-08-22 | 2022-11-22 | 武汉理工大学重庆研究院 | 医学图像分割方法、装置、电子设备及存储介质 |
CN115689987A (zh) * | 2022-08-24 | 2023-02-03 | 东南大学 | 一种基于dr图像双视角脊椎骨折特征检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230108579A1 (en) * | 2021-10-05 | 2023-04-06 | Deepmind Technologies Limited | Dynamic entity representations for sequence generation |
-
2023
- 2023-06-09 CN CN202310683412.9A patent/CN116403728B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741395A (zh) * | 2016-02-03 | 2016-07-06 | 慧锐通智能科技股份有限公司 | 基于二维码和人脸识别的门禁访问方法和系统 |
CN110265118A (zh) * | 2019-06-14 | 2019-09-20 | 吉林大学第一医院 | 一种肺部影像诊断报告质量的评估方法和系统 |
CN113434626A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN113889262A (zh) * | 2021-09-29 | 2022-01-04 | 平安国际智慧城市科技股份有限公司 | 基于模型的数据预测方法、装置、计算机设备和存储介质 |
CN114238558A (zh) * | 2021-11-12 | 2022-03-25 | 北京惠及智医科技有限公司 | 一种电子病历的质检方法、装置、存储介质及设备 |
CN114613462A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 医疗数据处理方法和装置、电子设备及存储介质 |
CN114999637A (zh) * | 2022-07-18 | 2022-09-02 | 华东交通大学 | 多角度编码与嵌入式互学习的病理图像诊断方法与系统 |
CN115375698A (zh) * | 2022-08-22 | 2022-11-22 | 武汉理工大学重庆研究院 | 医学图像分割方法、装置、电子设备及存储介质 |
CN115689987A (zh) * | 2022-08-24 | 2023-02-03 | 东南大学 | 一种基于dr图像双视角脊椎骨折特征检测方法 |
Non-Patent Citations (1)
Title |
---|
呼出气一氧化氮在慢性过敏性肺炎诊断中的应用价值;白晓雪;《中国实验诊断学》;39-42 * |
Also Published As
Publication number | Publication date |
---|---|
CN116403728A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790171B2 (en) | Computer-implemented natural language understanding of medical reports | |
US11423538B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
AU2020260078B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
Theis et al. | Improving the in-hospital mortality prediction of diabetes ICU patients using a process mining/deep learning architecture | |
Al Banna et al. | Attention-based bi-directional long-short term memory network for earthquake prediction | |
Tomašev et al. | Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records | |
Ben Atitallah et al. | Fusion of convolutional neural networks based on Dempster–Shafer theory for automatic pneumonia detection from chest X‐ray images | |
Tsang et al. | Harnessing the power of machine learning in dementia informatics research: Issues, opportunities, and challenges | |
CN113241135A (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
US20130054259A1 (en) | Rule-based Prediction of Medical Claims' Payments | |
CN109887562B (zh) | 电子病历的相似度确定方法、装置、设备和存储介质 | |
JP2018068752A (ja) | 機械学習装置、機械学習方法及びプログラム | |
CN116403728B (zh) | 医疗就诊数据的数据处理装置和相关设备 | |
Yang et al. | Multimodal temporal-clinical note network for mortality prediction | |
Savcisens et al. | Using sequences of life-events to predict human lives | |
Singhal | Predicting Congestive Heart failure using predictive analytics in AI | |
CN117391092B (zh) | 一种基于对比学习的电子病历多模态医疗语义对齐方法 | |
Sun et al. | Interpretable time-aware and co-occurrence-aware network for medical prediction | |
Liu et al. | Attention-based multimodal fusion with contrast for robust clinical prediction in the face of missing modalities | |
Kim et al. | Fostering transparent medical image AI via an image-text foundation model grounded in medical literature | |
CN114418189A (zh) | 水质等级预测方法、系统、终端设备及存储介质 | |
CN117112829B (zh) | 医疗数据跨模态检索方法、装置和相关设备 | |
Zhang et al. | Exploring unsupervised multivariate time series representation learning for chronic disease diagnosis | |
Nguyen-Duc et al. | Deep EHR spotlight: a framework and mechanism to highlight events in electronic health records for explainable predictions | |
Saleh et al. | Predicting patients with Parkinson's disease using Machine Learning and ensemble voting technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |