CN111681726B - 电子病历数据的处理方法、装置、设备和介质 - Google Patents
电子病历数据的处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111681726B CN111681726B CN202010478482.7A CN202010478482A CN111681726B CN 111681726 B CN111681726 B CN 111681726B CN 202010478482 A CN202010478482 A CN 202010478482A CN 111681726 B CN111681726 B CN 111681726B
- Authority
- CN
- China
- Prior art keywords
- condition
- entity
- data
- disease
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 201000010099 disease Diseases 0.000 claims abstract description 216
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 216
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 25
- 238000003745 diagnosis Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 210000005036 nerve Anatomy 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 48
- 206010006451 bronchitis Diseases 0.000 description 23
- 230000008569 process Effects 0.000 description 13
- 206010044302 Tracheitis Diseases 0.000 description 12
- 208000006673 asthma Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 206010037660 Pyrexia Diseases 0.000 description 7
- 208000000059 Dyspnea Diseases 0.000 description 6
- 206010013975 Dyspnoeas Diseases 0.000 description 6
- 208000037656 Respiratory Sounds Diseases 0.000 description 6
- 206010047924 Wheezing Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 201000009837 laryngotracheitis Diseases 0.000 description 5
- 206010013952 Dysphonia Diseases 0.000 description 4
- 208000010473 Hoarseness Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 208000010392 Bone Fractures Diseases 0.000 description 3
- 206010017076 Fracture Diseases 0.000 description 3
- 208000007981 Humeral Fractures Diseases 0.000 description 3
- 206010020462 Humerus fracture Diseases 0.000 description 3
- 206010036790 Productive cough Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000004227 basal ganglia Anatomy 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 206010025421 Macule Diseases 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 206010020718 hyperplasia Diseases 0.000 description 1
- 230000002390 hyperplastic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请实施例公开了一种电子病历数据的处理方法、装置、设备和介质,涉及人工智能领域,特别涉及知识图谱技术,其中,该方法包括:获取电子病历数据中的病况实体数据;基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层;基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果,本申请实施例由于预先训练得到的病况实体表示模型中包括图卷积神经网络层,因此输出的病况实体表示数据准确度较高,从而使得最终获得的电子病历数据对应的疾病预测结果准确度也较高。
Description
技术领域
本申请实施例涉及计算机技术,具体涉及人工智能技术,尤其涉及一种电子病历数据的处理方法、装置、设备和介质。
背景技术
随着电子信息化技术的不断发展和完善,电子病历系统目前在医院有了非常广泛的普及和使用,在患者就诊期间,医生可以通过电子病历系统完成就诊信息的记录,包括病程记录、检查检验结果、医嘱、手术记录和护理记录等等。自动疾病诊断是根据电子病历中医生记录的这些信息,自动地做出诊断结果预测的算法。
电子病历当中一般包含了两种重要的信息,一部分是自然文本信息,另一部分是病况实体信息。对于电子病历当中的病况实体信息来说,现有技术通常利用实体向量或者One-hot的形式来进行表示,准确度较低,从而使得根据病况实体信息预测出的诊断结果的准确度也较低。
发明内容
本申请实施例公开一种电子病历数据的处理方法、装置、设备和介质,以提高根据病况实体信息进行疾病预测的准确度。
第一方面,本申请实施例公开了一种电子病历数据的处理方法,包括:
获取电子病历数据中的病况实体数据;
基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层;
基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
第二方面,本申请实施例还公开了一种电子病历数据的处理装置,包括:
病况实体数据获取模块,用于获取电子病历数据中的病况实体数据;
表示数据获取模块,用于基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层;
疾病预测结果获取模块,用于基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
第三方面,本申请实施例还公开了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例任一所述的电子病历数据的处理方法。
第四方面,本申请实施例还公开了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例任一所述的电子病历数据的处理方法。
根据本申请实施例的技术方案,通过基于获取的病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据,其中,病况实体表示模型中包括图卷积神经网络层,进而基于病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果,由于预先训练得到的病况实体表示模型中包括图卷积神经网络层,因此输出的病况实体表示数据准确度较高,从而使得最终获得的电子病历数据对应的疾病预测结果准确度也较高。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A是根据本申请实施例一公开的一种电子病历数据的处理方法的流程图;
图1B是根据本申请实施例一公开的一种病况实体表示模型的结构示意图;
图1C是根据本申请实施例一公开的一种医疗知识图的示意图;
图2是根据本申请实施例二公开的一种病况实体表示模型的结构示意图;
图3A是根据本申请实施例三公开的另一种电子病历数据的处理方法的流程图;
图3B是根据本申请实施例三公开的一种疾病预测的示意图;
图4是根据本申请实施例四公开的一种电子病历数据的处理装置的结构示意图;
图5是根据本申请实施例公开的一种电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
自动疾病诊断是临床辅助系统当中的核心组成部分,用以对医生的诊断提供强有力的辅助作用。快速且准确的自动诊断结果可以大大的提升医生看病的效率,并且明显降低误诊率和漏诊率。特别是对于我国目前国情来说,存在着很大程度的医疗资源不均衡的情况,在很多基层区域,缺乏具备很专业能力的全科医生,所以尤其会带来非常多漏诊的情况,导致患者的病情无法得到及时的判断,造成更加严重的后果。
现有的自动疾病诊断大多是基于电子病历中的信息实现的,申请人在研发阶段发现,现有利用实体向量或者One-hot的形式来表示电子病历中的病况实体信息,存在以下几种问题:1)在实际诊断过程当中,病况实体信息与诊断结果之间会存在很复杂的关系,一种疾病可能会导致多种不同的病况出现,同时,一种病况也有可能是会由很多种不同种类的疾病导致的。这就使得病况表达尽可能多的融合与该病况相关联的疾病信息,这就能更加准确的推导出疾病诊断的结果。2)由于不同医院医生的书写习惯的不同,从电子病历当中解析出的病况实体信息可能存在表达方式上的不同,比如“脑部出血”和“脑出血”,根据现有技术,会把它们当作不同的两个病况实体分别处理,这就导致这个实体无法得到准确且有效的学习和表示。有一些病况实体之间可能会存在方位等细微的不同,实际上表达的是同样的意思,比如“左基底节软化灶形成”和“右基底节软化灶形成”,根据现有技术,也会把它们当作不同的实体,导致这种类型的实体也无法得到准确且有效的学习和表达。3)对于电子病历当中的高频病况实体,例如“发热”,可以有一个非常好的表示效果,但是,对于“眼睑增生性黄斑”这种低频实体,对应的电子病历也相对较少,所以很难得到很好的表示。
因此需要一种方法来提高表示电子病历中病况实体信息的准确度的方法,从而可以使得最终的疾病预测结果也更加准确。
图1A是根据本申请实施例一公开的一种电子病历数据的处理方法的流程图,本实施例可以适用于根据电子病历数据自动进行疾病预测的情况。本实施例方法可以由电子病历数据的处理装置来执行,该装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上,例如服务器或终端设备等。
如图1A所示,本实施例一公开的电子地图显示方法可以包括:
S101、获取电子病历数据中的病况实体数据。
其中,病况实体数据由医生通过人工方式记录在电子病例中,或者通过包括自然语言理解技术解析患者口述内容以自动生成在电子病例中。病况实体数据包括但不限于患者的症状或异常体征等,例如“咳嗽”、“发热”、“咽痛”、“呼吸困难”、“声音嘶哑”和“喘息”等。
具体的,从电子病历系统中调取目标患者的电子病历,并从该电子病历中获取病况实体数据,其中获取方法包括但不限于:1)预先在电子病历中建立医疗要素分区,所述医疗要素分区用于记录患者的病况信息,进而从电子病历的医疗要素分区中直接提取病况实体数据。2)利用现有的领域相关度词语提取算法,从电子病历中提取“病况”相关的词语,作为病况实体数据。获取的病况实体数据可以是一条,也可以是多条,且每一条病况实体数据对应一种症状或异常体征。
可选的,获取电子病历数据中的病况实体数据之后,还包括:将病况实体数据与电子病历对应的患者信息,关联存储于数据库中。通过将病况实体数据与患者信息关联存储于数据库中,使得后续对病况实体数据进行数据回溯时,可以更加快速的确认相关患者的信息。
通过获取电子病历数据中的病况实体数据,实现了对病况实体数据的数据提取,为后续根据病况实体数据获得病况实体表示数据,奠定了数据基础。
S102、基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络(GCN)层。
其中,病况实体表示数据是对病况实体数据的向量化表示,基于病况实体表示数据即可以实现疾病预测。
具体的,将病况实体数据输入到预先训练得到的病况实体表示模型中,输出为该病况实体数据对应的病况实体表示数据。病况实体表示模型中设置有图卷积神经网络层,用于根据预先建立的医疗知识图,将病况实体数据转化为融合有图结构信息的病况实体表示数据,其中医疗知识图包括有疾病实体节点以及病况实体节点,且疾病实体节点之间以及疾病实体节点与病况实体节点之间,具有连接关系。
可选的,图1B是根据本申请实施例一公开的一种病况实体表示模型的结构示意图,其中病况实体表示模型10中包括:向量编码层11、图卷积神经网络层12和池化层13;
所述向量编码层11,用于对所述病况实体数据进行编码,获得所述病况实体数据对应的病况编码向量。
其中,由于目前的处理设备,例如计算机,无法处理英文或汉字等文字内容,因此需要将病况实体数据转化为处理设备能够理解的数值形式。
具体的,病况实体表示模型10获取输入的病况实体数据后,将病况实体数据传输到向量编码层11中,向量编码层11根据预设的编码方法,对病况实体数据进行编码,得到病况实体数据对应的病况编码向量。其中,预设的编码方法包括但不限于NNLM(NerualNetwork Language Model,神经网络语言模型)、word2vec、glove和ELMo等。
所述图卷积神经网络层12,用于根据所述病况编码向量,获得融合有图结构信息的病况向量化表示数据。
具体的,向量编码层11将输出的病况编码向量传输到图卷积神经网络层12中,图卷积神经网络层12根据医疗知识图中,疾病实体节点之间的连接关系,以及疾病实体节点与病况实体节点之间的连接关系,计算得到获得融合有图结构信息的病况向量化表示数据。
所述池化层13,用于对所述病况向量化表示数据进行池化处理,获得病况实体表示数据。
其中,池化处理的作用是减小病况向量化表示数据的数据量,以及减轻病况向量化表示数据的过拟合现象。
具体的,图卷积神经网络层12将输出的病况向量化表示数据传输到池化层13中,池化层13根据预设的池化方法对病况向量化表示数据进行池化处理,获得病况实体表示数据,其中预设的池化方法包括平均池化处理方法。
通过在病况实体表示模型中设置向量编码层,实现了将处理设备不能识别的病况实体数据,转化为可以识别的病况实体数据对应的病况编码向量;通过在病况实体表示模型中设置图卷积神经网络层,使得用于表达病况实体数据的病况向量化表示数据,融合有相关联疾病的图结构信息,从而使得病况向量化表示数据的准确度更高;通过在病况实体表示模型中设置池化层,使得最终得到的病况实体表示数据的数据量较少,且避免了过拟合现象。
S103、基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
其中,分类模型用于根据病况实体表示数据,确定病况实体表示数据所属的电子病历数据对应的疾病预测结果。分类模型的训练数据可以从专业能力比较突出的医疗机构,例如三甲医院的大量优质电子病历中获取。
具体的,将病况实体表示数据输入到训练好的分类模型中,输出病况实体表示数据所属电子病历数据对应的疾病预测结果。
通过基于病况实体表示数据和预先训练得到的分类模型,获得电子病历数据对应的疾病预测结果,实现了根据患者的电子病历数据,对患者进行疾病预测的效果。
根据本实施例的技术方案,通过基于获取的病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据,其中,病况实体表示模型中包括图卷积神经网络层,进而基于病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果,由于预先训练得到的病况实体表示模型中包括图卷积神经网络层,使得用于表达病况实体数据的病况向量化表示数据,融合有相关联疾病的图结构信息,从而使得病况向量化表示数据的准确度更高,最终使得获得的电子病历数据对应的疾病预测结果准确度也较高。
在上述实施例的基础上,S101之前,所述方法还包括:构建医疗知识图。
其中所述医疗知识图中包括至少一个疾病实体节点和至少一个病况实体节点。
具体的,一个疾病实体节点代表一个疾病实体,例如“气管炎”、“喉气管炎”、“支气管炎”和“喘息性支气管炎”等;一个病况实体节点代表一个病况实体,例如“呼吸困难”、“声音嘶哑”、“喘息”、“咳痰”和“发热”等。
所述疾病实体节点中具有上下位关系的两个疾病实体节点之间具有连接关系。
例如,疾病实体节点“骨折”是疾病实体节点“肱骨骨折”的上位,则疾病实体节点“骨折”与疾病实体节点“肱骨骨折”之间具有连接关系,即疾病实体节点“肱骨骨折”是属于疾病实体节点“骨折”的一种类型。在医疗知识图中某个疾病实体节点可能会存在多个上位疾病实体节点,也有可能存在多个下位疾病实体节点。
对于任一疾病实体节点和任一病况实体节点,若该疾病实体节点对应的疾病会导致该病况实体节点对应的病况出现,则该疾病实体节点与该病况实体节点之间具有连接关系。
例如,疾病实体节点“气管炎”对应的疾病会导致病况实体节点“呼吸困难”和“发热”对应的病况出现,则疾病实体节点“气管炎”与病况实体节点“呼吸困难”和“发热”具有连接关系。
本实施例医疗知识图中的疾病实体节点、病况实体节点、疾病实体节点之间的连接关系以及疾病实体节点与病况实体节点之间的连接关系,都是从大量真实的脱敏病历当中基于统计的方法挖掘出来的。医疗知识图中,疾病实体节点之间的连接关系没有权重,而疾病实体节点与病况实体节点之间的连接关系具有权重,这个权重是根据病况实体节点出现的频次得到的,频次越大则权重越大。可选的,由于疾病实体节点与病况实体节点之间的连接关系存在长尾特性,并且权重比较低的连接关系一般情况下都是由于噪声数据产生的,将这部分低权重边引入到计算过程中的话,会影响整体的效果,所以对每个病况实体节点关联的连接关系进行了一个截断,仅保留分数处于Top-k范围内对应的连接关系,优选的,将k设为5,也就是每个病况实体节点最多与5个疾病实体节点形成连接关系。
图1C是根据本申请实施例一公开的一种医疗知识图的示意图,其中包括疾病实体节点“气管炎”、“喉气管炎”、“支气管炎”和“喘息性支气管炎”,病况实体节点“呼吸困难”、“声音嘶哑”、“喘息”、“咳痰”和“发热”;疾病实体节点“气管炎”分别与疾病实体节点“喉气管炎”和“支气管炎”具有连接关系,疾病实体节点“支气管炎”与疾病实体节点“喘息性支气管炎”具有连接关系;病况实体节点“呼吸困难”分别与疾病实体节点“气管炎”和“喉气管炎”具有连接关系,病况实体节点“声音嘶哑”与疾病实体节点“喉气管炎”具有连接关系,病况实体节点“喘息”与疾病实体节点“喘息性支气管炎”具有连接关系,病况实体节点“咳痰”分别与疾病实体节点“喘息性支气管炎”和“支气管炎”具有连接关系,病况实体节点“发热”分别与疾病实体节点“气管炎”和“支气管炎”具有连接关系。
通过构建医疗知识图,且在医疗知识图中构建疾病实体节点之间的连接关系,以及疾病实体节点与病况实体节点之间的连接关系,为后续图卷积神经网络根据该医疗知识图,生成融合有图结构信息的病况向量化表示数据,奠定了基础。
相应的,图卷积神经网络层具体用于:
根据所述医疗知识图和所述病况编码向量,获得融合有图结构信息的病况向量化表示数据。
具体的,图卷积神经网络层根据从编码层传输来的病况编码向量和医疗知识图中疾病实体节点之间的连接关系,以及疾病实体节点与病况实体节点之间的连接关系,获得融合有图结构信息的病况向量化表示数据。
通过根据医疗知识图和病况编码向量,获得融合有图结构信息的病况向量化表示数据,从而使得病况向量化表示数据的准确度更高。
图2是根据本申请实施例二公开的一种病况实体表示模型的结构示意图,基于上述实施例一中图1B的病况实体表示模型进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图2所示,病况实体表示模型10可以包括:
向量编码层11、图卷积神经网络层12和池化层13。
其中,图卷积神经网络层12包括第一图卷积神经网络子层20和第二图卷积神经网络子层21。
所述第一图卷积神经网络子层20,用于根据所述医疗知识图、以及与所述病况实体数据对应的目标病况实体节点具有连接关系的目标疾病实体节点的疾病编码向量,获得融合有图结构信息的疾病向量化表示数据。
具体的,向量编码层11从医疗知识图中确定与病况实体数据对应的目标病况实体节点具有连接关系的目标疾病实体节点,并对该目标疾病实体节点进行编码,获得该目标疾病实体节点对应的疾病编码向量,最终将病况编码向量以及疾病编码向量,共同传输给图卷积神经网络层12。图卷积神经网络层12中的第一图卷积神经网络子层20获取从编码层11传输来的疾病编码向量,并结合医疗知识图中疾病实体节点之间的连接关系,获得融合有图结构信息的疾病向量化表示数据。
可选的,按照如下公式获得融合有图结构信息的疾病向量化表示数据:
其中,ReLU表示激活函数,即上述公式会造成模型网络的稀疏性,缓解过拟合问题发生;W1、W2、W3和B1分别表示待训练模型参数,通过模型训练即可确定W1、W2、W3和B1的数值,W1、和W3为m*m维的矩阵,B1为m维的向量;Np(i)表示所述目标疾病实体节点对应的父节点集合,例如疾病实体节点“支气管炎”与疾病实体节点“喘息性支气管炎”具有连接关系,疾病实体节点“支气管炎”是疾病实体节点“喘息性支气管炎”的上位表示,则疾病实体节点“支气管炎”是疾病实体节点“喘息性支气管炎”的一个父节点;Nc(i)表示所述目标疾病实体节点对应的子节点集合,例如疾病实体节点“支气管炎”与疾病实体节点“喘息性支气管炎”具有连接关系,疾病实体节点“喘息性支气管炎”是疾病实体节点“支气管炎”的下位表示,则疾病实体节点“喘息性支气管炎”是疾病实体节点“支气管炎”的一个子节点;表示疾病向量化表示数据;Di表示所述疾病编码向量;Dv表示所述目标疾病实体节点的子节点的编码向量;Du表示所述目标疾病实体节点的父节点的编码向量;|Np(i)|表示所述目标疾病实体节点对应的父节点集合的元素个数;|Nc(i)|表示所述目标疾病实体节点对应的子节点集合的元素个数。
通过上述公式,能够实现计算融合有图结构信息的疾病向量化表示数据的效果。
所述第二图卷积神经网络子层21,用于根据所述医疗知识图、所述病况编码向量以及所述疾病向量化表示数据,获得融合有图结构信息的病况向量化表示数据。
具体的,第一图卷积神经网络子层20将获得的疾病向量化表示数据,传输给第二图卷积神经网络子层21,第二图卷积神经网络子层21根据从编码层11获取的病况编码向量,以及从第一图卷积神经网络子层20获取的疾病向量化表示数据,结合医疗知识图中疾病实体节点与病况实体节点之间的连接关系,获得融合有图结构信息的病况向量化表示数据。
可选的,按照如下公式获得融合有图结构信息的病况向量化表示数据:
其中,ReLU表示激活函数;W4、W5和B2分别表示待训练模型参数,通过模型训练即可确定W4、W5和B2的数值,W4和W5为m*m维的矩阵,B2为m维的向量;Ng(j)表示所述目标疾病实体节点的集合,即与病况实体数据对应的目标病况实体节点具有连接关系的疾病实体节点的集合;Ai,j表示所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重;表示病况向量化表示数据,Fj表示所述病况编码向量;|Ng(j)|表示所述目标疾病实体节点集合的元素个数。
通过上述公式,能够实现计算融合有图结构信息的病况向量化表示数据的效果。
可选的,按照如下公式确定所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重Ai,j:
其中,n<fj|di>表示所述目标病况实体节点在主诊断为所述目标疾病实体节点的病历中出现的频次,即单位时间内目标病况实体节点在主诊断为所述目标疾病实体节点的病历中出现的次数;n(di)表示主诊断为所述目标疾病实体节点的病历总数;N表示使用的病历总数。
通过上述公式,能够确定目标病况实体节点与目标疾病实体节点之间连接关系的权重的效果。
在本实施例中,通过将病况实体表示模型中的图卷积神经网络层设置为包括第一图卷积神经网络子层和第二图卷积神经网络子层,第一图卷积神经网络子层用于根据医疗知识图和疾病编码向量,获得融合有图结构信息的疾病向量化表示数据;第二图卷积神经网络子层用于根据医疗知识图、病况编码向量以及疾病向量化表示数据,获得融合有图结构信息的病况向量化表示数据,使得图卷积神经网络能够解析到重要的医疗知识图结构特征,提高了最终得到的病况向量化表示数据的准确度,且能有效的降低运算的复杂度和计算时间开销。
申请人在研发过程中发现,现有的自动疾病诊断方法,通常是通过两种方式进行的,第一种是基于电子病历对应的自然文本表示数据和患者信息表示数据,进行自动疾病诊断。第二种是基于电子病历对应的病况实体表示数据进行自动疾病诊断。这两种方法涉及的表示数据都不是很充足,导致最后的疾病诊断结果准确度不高。因此需要一种诊断结果准确度较高的疾病诊断方法
图3A是根据本申请实施例三公开的另一种电子病历数据的处理方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图3A所示,该方法可以包括:
S301、获取电子病历数据中的病况实体数据。
S302、基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层。
S303、获取所述电子病历对应的自然文本表示数据和所述电子病历对应的患者信息表示数据。
其中,电子病历中包括自然文本信息,例如主诉信息、现病史信息、体格检查信息各辅助检查信息等;电子病历中还包括一些患者信息,例如年龄、性别和婚姻史等。
具体的,将电子病历中的自然文本信息和患者信息分别输入到预先训练得到的神经网络中,得到电子病历对应的自然文本表示数据和电子病历对应的患者信息表示数据。
可选的,所述神经网络包括但不限于卷积神经网络、循环神经网络和引入注意力机制的神经网络等。
以卷积神经网络为例,可选的,使用长度为3、4和5的各100个卷积核,且选用系数为0.5的dropout,最终使用平均池化方式进行池化处理,输出自然文本表示数据和患者信息表示数据。
S304、基于所述病况实体表示数据、所述自然文本表示数据和所述患者信息表示数据,生成病历整体表示数据。
具体的,将病况实体表示数据、自然文本表示数据和患者信息表示数据进行拼接,得到病历整体表示数据。
S305、将所述病历整体表示数据输入预先训练出的分类模型,根据所述分类模型的输出结果获得所述电子病历数据对应的疾病预测结果。
可选的,分类模型包括但不限于MLP(Multilayer Perceptron,多层感知机)模型。
如图3B所示,图3B是根据本申请实施例三公开的一种疾病预测的示意图,其中30表示获取电子病历对应的自然文本表示数据的过程,31表示获取病况实体表示数据的过程,32表示获取患者信息表示数据的过程。具体的,过程30包括:从电子病历中提取自然文本信息,并将自然文本信息进行向量编码,进而将编码结果进行卷积计算,最终对卷积结果进行平均池化处理以得到自然文本表示数据;过程31包括:从电子病历中提取病况实体数据,并将病况实体数据进行向量编码,进而将编码结果输入到图卷积神经网络层中,得到病况向量化表示数据,最终对病况向量化表示数据进行平均池化处理以得到病况实体表示数据;过程32与过程30过程相似,包括:从电子病历中提取患者信息,并将患者信息进行向量编码,进而将编码结果进行卷积计算,最终对卷积结果进行平均池化处理以得到患者信息表示数据。根据自然文本表示数据、病况实体表示数据以及患者信息表示数据,得到病历整体表示数据,基于MLP模型进行疾病预测。
在本实施例中,通过获取电子病历对应的自然文本表示数据和患者信息表示数据,并基于自然文本表示数据、患者信息表示数据以及病况实体表示数据,生成病历整体表示数据,最终将病历整体表示数据输入到分类模型中,得到疾病预测结果,由于病历整体表示数据包括了自然文本表示数据、患者信息表示数据以及病况实体表示数据三种表示数据,因此表示数据包括的信息较宽泛,数据量充足,从而使得最终根据病历整体表示数据得到的疾病预测结果的准确度较高。
图4是根据本申请实施例四公开的一种电子病历数据的处理装置的结构示意图,本实施例可以适用于根据电子病历数据自动进行疾病预测的情况。本实施例装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上,例如服务器等。
如图4所示,本实施例公开的电子病历数据的处理装置40可以包括病况实体数据获取模块41、表示数据获取模块42和疾病预测结果获取模块43,其中:
病况实体数据获取模块41,用于获取电子病历数据中的病况实体数据;
表示数据获取模块42,用于基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层;
疾病预测结果获取模块43,用于基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
可选的,所述病况实体表示模型中包括:向量编码层、图卷积神经网络层和池化层;
所述向量编码层,用于对所述病况实体数据进行编码,获得所述病况实体数据对应的病况编码向量;
所述图卷积神经网络层,用于根据所述病况编码向量,获得融合有图结构信息的病况向量化表示数据;
所述池化层,用于对所述病况向量化表示数据进行池化处理,获得病况实体表示数据。
可选的,所述装置还包括医疗知识图构建模块,具体用于:
构建医疗知识图;其中所述医疗知识图中包括至少一个疾病实体节点和至少一个病况实体节点;
所述疾病实体节点中具有上下位关系的两个疾病实体节点之间具有连接关系;
对于任一疾病实体节点和任一病况实体节点,若该疾病实体节点对应的疾病会导致该病况实体节点对应的病况出现,则该疾病实体节点与该病况实体节点之间具有连接关系;
相应的,所述图卷积神经网络层具体用于:
根据所述医疗知识图和所述病况编码向量,获得融合有图结构信息的病况向量化表示数据。
可选的,所述图卷积神经网络层包括第一图卷积神经网络子层和第二图卷积神经网络子层;
所述第一图卷积神经网络子层,用于根据所述医疗知识图、以及与所述病况实体数据对应的目标病况实体节点具有连接关系的目标疾病实体节点的疾病编码向量,获得融合有图结构信息的疾病向量化表示数据;
所述第二图卷积神经网络子层,用于根据所述医疗知识图、所述病况编码向量以及所述疾病向量化表示数据,获得融合有图结构信息的病况向量化表示数据。
可选的,按照如下公式获得融合有图结构信息的疾病向量化表示数据:
其中,ReLU表示激活函数,W1、W2、W3和B1分别表示待训练模型参数,Np(i)表示所述目标疾病实体节点对应的父节点集合,Nc(i)表示所述目标疾病实体节点对应的子节点集合,表示疾病向量化表示数据,Di表示所述疾病编码向量,Dv表示所述目标疾病实体节点的子节点的编码向量,Du表示所述目标疾病实体节点的父节点的编码向量。
可选的,按照如下公式获得融合有图结构信息的病况向量化表示数据:
其中,ReLU表示激活函数,W4、W5和B2分别表示待训练模型参数,Ng(j)表示所述目标疾病实体节点的集合,Ai,j表示所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重,表示病况向量化表示数据,Fj表示所述病况编码向量。
可选的,按照如下公式确定所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重Ai,j:
其中,n<fj|di>表示所述目标病况实体节点在主诊断为所述目标疾病实体节点的病历中出现的频次,n(di)表示主诊断为所述目标疾病实体节点的病历总数,N表示使用的病历总数。
可选的,所述疾病预测结果获取模块43,具体用于:
获取所述电子病历对应的自然文本表示数据和所述电子病历对应的患者信息表示数据;
基于所述病况实体表示数据、所述自然文本表示数据和所述患者信息表示数据,生成病历整体表示数据;
将所述病历整体表示数据输入预先训练出的分类模型,根据所述分类模型的输出结果获得所述电子病历数据对应的疾病预测结果。
本申请实施例所公开的电子病历数据的处理装置40可执行本申请实施例所公开的任意电子病历数据的处理方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意电子病历数据的处理方法实施例中的描述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的电子病历数据的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的电子病历数据的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的电子病历数据的处理方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的XXX的方法对应的程序指令/模块(例如,附图4所示的病况实体数据获取模块41、表示数据获取模块42和疾病预测结果获取模块43)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的电子病历数据的处理方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子病历数据的处理的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至电子病历数据的处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
电子病历数据的处理方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与电子病历数据的处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过基于获取的病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据,其中,病况实体表示模型中包括图卷积神经网络层,进而基于病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果,由于预先训练得到的病况实体表示模型中包括图卷积神经网络层,因此输出的病况实体表示数据准确度较高,从而使得最终获得的电子病历数据对应的疾病预测结果准确度也较高。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种电子病历数据的处理方法,包括:
获取电子病历数据中的病况实体数据;
基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层,用于根据预先建立的医疗知识图,将所述病况实体数据转化为融合有图结构信息的病况实体表示数据;
基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
2.根据权利要求1所述的方法,其中,所述病况实体表示模型中包括:向量编码层、图卷积神经网络层和池化层;
所述向量编码层,用于对所述病况实体数据进行编码,获得所述病况实体数据对应的病况编码向量;
所述图卷积神经网络层,用于根据所述病况编码向量,获得融合有图结构信息的病况向量化表示数据;
所述池化层,用于对所述病况向量化表示数据进行池化处理,获得病况实体表示数据。
3.根据权利要求2所述的方法,其中,在获取电子病历数据中的病况实体数据之前,所述方法还包括:
构建医疗知识图;其中所述医疗知识图中包括至少一个疾病实体节点和至少一个病况实体节点;
所述疾病实体节点中具有上下位关系的两个疾病实体节点之间具有连接关系;
对于任一疾病实体节点和任一病况实体节点,若该疾病实体节点对应的疾病会导致该病况实体节点对应的病况出现,则该疾病实体节点与该病况实体节点之间具有连接关系;
相应的,所述图卷积神经网络层具体用于:
根据所述医疗知识图和所述病况编码向量,获得融合有图结构信息的病况向量化表示数据。
4.根据权利要求3所述的方法,其中,所述图卷积神经网络层包括第一图卷积神经网络子层和第二图卷积神经网络子层;
所述第一图卷积神经网络子层,用于根据所述医疗知识图、以及与所述病况实体数据对应的目标病况实体节点具有连接关系的目标疾病实体节点的疾病编码向量,获得融合有图结构信息的疾病向量化表示数据;
所述第二图卷积神经网络子层,用于根据所述医疗知识图、所述病况编码向量以及所述疾病向量化表示数据,获得融合有图结构信息的病况向量化表示数据。
5.根据权利要求4所述的方法,其中,按照如下公式获得融合有图结构信息的疾病向量化表示数据:
其中,ReLU表示激活函数,W1、W2、W3和B1分别表示待训练模型参数,Np(i)表示所述目标疾病实体节点对应的父节点集合,Nc(i)表示所述目标疾病实体节点对应的子节点集合,表示疾病向量化表示数据,Di表示所述疾病编码向量,Dv表示所述目标疾病实体节点的子节点的编码向量,Du表示所述目标疾病实体节点的父节点的编码向量。
6.根据权利要求4所述的方法,其中,按照如下公式获得融合有图结构信息的病况向量化表示数据:
其中,ReLU表示激活函数,W4、W5和B2分别表示待训练模型参数,Ng(j)表示所述目标疾病实体节点的集合,Ai,j表示所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重,表示病况向量化表示数据,Fj表示所述病况编码向量。
7.根据权利要求6所述的方法,其中,按照如下公式确定所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重Ai,j:
其中,n<fj|di>表示所述目标病况实体节点在主诊断为所述目标疾病实体节点的病历中出现的频次,n(di)表示主诊断为所述目标疾病实体节点的病历总数,N表示使用的病历总数。
8.根据权利要求1-7中任一项所述的方法,其中,基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果,包括:
获取所述电子病历对应的自然文本表示数据和所述电子病历对应的患者信息表示数据;
基于所述病况实体表示数据、所述自然文本表示数据和所述患者信息表示数据,生成病历整体表示数据;
将所述病历整体表示数据输入预先训练出的分类模型,根据所述分类模型的输出结果获得所述电子病历数据对应的疾病预测结果。
9.一种电子病历数据的处理装置,包括:
病况实体数据获取模块,用于获取电子病历数据中的病况实体数据;
表示数据获取模块,用于基于所述病况实体数据和预先训练得到的病况实体表示模型,获得病况实体表示数据;其中,所述病况实体表示模型中包括图卷积神经网络层用于根据预先建立的医疗知识图,将所述病况实体数据转化为融合有图结构信息的病况实体表示数据;
疾病预测结果获取模块,用于基于所述病况实体表示数据和预先训练得到的分类模型,获得所述电子病历数据对应的疾病预测结果。
10.根据权利要求9所述的装置,其中,所述病况实体表示模型中包括:向量编码层、图卷积神经网络层和池化层;
所述向量编码层,用于对所述病况实体数据进行编码,获得所述病况实体数据对应的病况编码向量;
所述图卷积神经网络层,用于根据所述病况编码向量,获得融合有图结构信息的病况向量化表示数据;
所述池化层,用于对所述病况向量化表示数据进行池化处理,获得病况实体表示数据。
11.根据权利要求10所述的装置,其中,所述装置还包括医疗知识图构建模块,具体用于:
构建医疗知识图;其中所述医疗知识图中包括至少一个疾病实体节点和至少一个病况实体节点;
所述疾病实体节点中具有上下位关系的两个疾病实体节点之间具有连接关系;
对于任一疾病实体节点和任一病况实体节点,若该疾病实体节点对应的疾病会导致该病况实体节点对应的病况出现,则该疾病实体节点与该病况实体节点之间具有连接关系;
相应的,所述图卷积神经网络层具体用于:
根据所述医疗知识图和所述病况编码向量,获得融合有图结构信息的病况向量化表示数据。
12.根据权利要求11所述的装置,其中,所述图卷积神经网络层包括第一图卷积神经网络子层和第二图卷积神经网络子层;
所述第一图卷积神经网络子层,用于根据所述医疗知识图、以及与所述病况实体数据对应的目标病况实体节点具有连接关系的目标疾病实体节点的疾病编码向量,获得融合有图结构信息的疾病向量化表示数据;
所述第二图卷积神经网络子层,用于根据所述医疗知识图、所述病况编码向量以及所述疾病向量化表示数据,获得融合有图结构信息的病况向量化表示数据。
13.根据权利要求12所述的装置,其中,按照如下公式获得融合有图结构信息的疾病向量化表示数据:
其中,ReLU表示激活函数,W1、W2、W3和B1分别表示待训练模型参数,Np(i)表示所述目标疾病实体节点对应的父节点集合,Nc(i)表示所述目标疾病实体节点对应的子节点集合,表示疾病向量化表示数据,Di表示所述疾病编码向量,Dv表示所述目标疾病实体节点的子节点的编码向量,Du表示所述目标疾病实体节点的父节点的编码向量。
14.根据权利要求12所述的装置,其中,按照如下公式获得融合有图结构信息的病况向量化表示数据:
其中,ReLU表示激活函数,W4、W5和B2分别表示待训练模型参数,Ng(j)表示所述目标疾病实体节点的集合,Ai,j表示所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重,表示病况向量化表示数据,Fj表示所述病况编码向量。
15.根据权利要求14所述的装置,其中,按照如下公式确定所述目标病况实体节点与所述目标疾病实体节点之间连接关系的权重Ai,j:
其中,n<fj|di>表示所述目标病况实体节点在主诊断为所述目标疾病实体节点的病历中出现的频次,n(di)表示主诊断为所述目标疾病实体节点的病历总数,N表示使用的病历总数。
16.根据权利要求9-15中任一项所述的装置,其中,所述疾病预测结果获取模块,具体用于:
获取所述电子病历对应的自然文本表示数据和所述电子病历对应的患者信息表示数据;
基于所述病况实体表示数据、所述自然文本表示数据和所述患者信息表示数据,生成病历整体表示数据;
将所述病历整体表示数据输入预先训练出的分类模型,根据所述分类模型的输出结果获得所述电子病历数据对应的疾病预测结果。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的电子病历数据的处理方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的电子病历数据的处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478482.7A CN111681726B (zh) | 2020-05-29 | 2020-05-29 | 电子病历数据的处理方法、装置、设备和介质 |
US17/116,972 US20210375479A1 (en) | 2020-05-29 | 2020-12-09 | Method and apparatus for processing electronic medical record data, device and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478482.7A CN111681726B (zh) | 2020-05-29 | 2020-05-29 | 电子病历数据的处理方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681726A CN111681726A (zh) | 2020-09-18 |
CN111681726B true CN111681726B (zh) | 2023-11-03 |
Family
ID=72434615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010478482.7A Active CN111681726B (zh) | 2020-05-29 | 2020-05-29 | 电子病历数据的处理方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210375479A1 (zh) |
CN (1) | CN111681726B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022139943A2 (en) * | 2020-10-23 | 2022-06-30 | Remmie, Inc. | Machine learning for ear disease diagnosis assistance |
CN112017776B (zh) * | 2020-10-27 | 2021-01-15 | 平安科技(深圳)有限公司 | 基于动态图和医学知识图谱的疾病预测方法及相关设备 |
CN112201348B (zh) * | 2020-10-28 | 2022-07-26 | 浙江大学 | 基于知识感知的多中心临床数据集适配设备 |
CN112182168B (zh) * | 2020-11-27 | 2021-04-06 | 北京惠及智医科技有限公司 | 病历文本分析方法、装置、电子设备及存储介质 |
CN112233798B (zh) * | 2020-12-16 | 2021-03-19 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析系统 |
US20220301716A1 (en) * | 2021-03-19 | 2022-09-22 | Canon Medical Systems Corporation | Medical information processing apparatus, medical information learning apparatus, medical information display apparatus, and medical information processing method |
CN113674856B (zh) * | 2021-04-15 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 基于人工智能的医学数据处理方法、装置、设备及介质 |
CN113590777B (zh) * | 2021-06-30 | 2024-09-06 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置、电子设备和存储介质 |
CN113823370A (zh) * | 2021-08-30 | 2021-12-21 | 山东健康医疗大数据有限公司 | 一种发热门诊电子病历业务数据的动态监管方法及工具 |
CN114446474A (zh) * | 2021-12-25 | 2022-05-06 | 新瑞鹏宠物医疗集团有限公司 | 宠物疾病预警装置、方法、电子设备及存储介质 |
CN114579626B (zh) * | 2022-03-09 | 2023-08-11 | 北京百度网讯科技有限公司 | 数据处理方法、数据处理装置、电子设备和介质 |
CN114639475A (zh) * | 2022-03-10 | 2022-06-17 | 平安国际智慧城市科技股份有限公司 | 信息处理方法、装置、服务器及存储介质 |
CN114628001B (zh) * | 2022-03-16 | 2024-06-18 | 平安科技(深圳)有限公司 | 基于神经网络的处方推荐方法、系统、设备及存储介质 |
CN115719640B (zh) * | 2022-11-02 | 2023-08-08 | 联仁健康医疗大数据科技股份有限公司 | 中医主次症状识别系统、装置、电子设备及其存储介质 |
CN115631868B (zh) * | 2022-11-17 | 2023-04-21 | 神州医疗科技股份有限公司 | 一种基于提示学习模型的传染病预警直报方法和系统 |
CN116646072A (zh) * | 2023-05-18 | 2023-08-25 | 肇庆医学高等专科学校 | 一种前列腺诊断神经网络模型的训练方法及装置 |
CN116386800B (zh) * | 2023-06-06 | 2023-08-18 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116525125B (zh) * | 2023-07-04 | 2023-09-19 | 之江实验室 | 一种虚拟电子病历的生成方法及装置 |
CN117153431B (zh) * | 2023-10-26 | 2024-01-05 | 武汉盛博汇信息技术有限公司 | 基于互联网的医疗服务系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN109978022A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种医疗文本信息处理方法及装置、存储介质 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965818B2 (en) * | 2012-05-16 | 2015-02-24 | Siemens Aktiengesellschaft | Method and system for supporting a clinical diagnosis |
US10950346B2 (en) * | 2017-04-28 | 2021-03-16 | International Business Machines Corporation | Utilizing artificial intelligence for data extraction |
-
2020
- 2020-05-29 CN CN202010478482.7A patent/CN111681726B/zh active Active
- 2020-12-09 US US17/116,972 patent/US20210375479A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN109978022A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种医疗文本信息处理方法及装置、存储介质 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Enriching Medical Terminology Knowledge Bases via Pre-trained Languange Model and Graph Convolutional Network;Jiaying Zhang等;《arXiv》;1-8 * |
基于医学知识的医疗辅助决策方法研究;王闪闪;《中国博士学位论文全文数据库 工程科技I辑》(第2期);E053-26 * |
Also Published As
Publication number | Publication date |
---|---|
US20210375479A1 (en) | 2021-12-02 |
CN111681726A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111681726B (zh) | 电子病历数据的处理方法、装置、设备和介质 | |
CN111710412B (zh) | 诊断结果的校验方法、装置及电子设备 | |
US10347373B2 (en) | Intelligent integration, analysis, and presentation of notifications in mobile health systems | |
CN111753543A (zh) | 药物推荐方法、装置、电子设备及存储介质 | |
CN112347769B (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
EP3895178A1 (en) | System and method for providing health information | |
CN112530576A (zh) | 一种线上医患匹配方法、装置、电子设备及存储介质 | |
CN111274397B (zh) | 建立实体关系检测模型的方法以及装置 | |
CN111832298B (zh) | 病历的质检方法、装置、设备以及存储介质 | |
CN111326251B (zh) | 一种问诊问题输出方法、装置以及电子设备 | |
JP2020518050A (ja) | エンティティ間のコンテキスト的類似度の学習及び適用 | |
CN111640511B (zh) | 医疗事实验证的方法、装置、电子设备及存储介质 | |
CN112100498B (zh) | 疾病舆情的监控方法、装置 | |
JP2023060846A (ja) | モデル決定方法、装置、電子機器及びメモリ | |
Yuan et al. | Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification | |
CN113590777B (zh) | 文本信息处理方法、装置、电子设备和存储介质 | |
CN118230971A (zh) | 医疗信息抽取方法、装置、电子设备和存储介质 | |
CN111785340B (zh) | 一种医疗数据处理方法、装置、设备及存储介质 | |
CN112489790A (zh) | 关键数据确定方法、装置、设备及存储介质 | |
CN113838573B (zh) | 临床辅助决策诊断自学习方法、装置、设备和存储介质 | |
Bostani et al. | MLP-RL-CRD: diagnosis of cardiovascular risk in athletes using a reinforcement learning-based multilayer perceptron | |
CN113591886B (zh) | 用于信息分类的方法、装置、设备及计算机可读存储介质 | |
CN114461085A (zh) | 医疗输入推荐方法、装置、设备及存储介质 | |
CN110335679B (zh) | 一种基于多粒度图模式挖掘的生存预测方法及系统 | |
CN112117009A (zh) | 用于构建标签预测模型的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |