CN116631642B - 一种临床发现事件的抽取方法及装置 - Google Patents
一种临床发现事件的抽取方法及装置 Download PDFInfo
- Publication number
- CN116631642B CN116631642B CN202310904583.XA CN202310904583A CN116631642B CN 116631642 B CN116631642 B CN 116631642B CN 202310904583 A CN202310904583 A CN 202310904583A CN 116631642 B CN116631642 B CN 116631642B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- electronic medical
- medical record
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 149
- 239000011159 matrix material Substances 0.000 claims abstract description 86
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims 2
- 239000003814 drug Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 208000002173 dizziness Diseases 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 210000003484 anatomy Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003748 differential diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种临床发现事件的抽取方法及装置,包括:将获取的目标电子病历输入至预先训练好的事件抽取模型中,由参数共享模块对目标电子病历进行文本向量转化处理,并将确定出的文本向量共享至事件抽取模型中的实体识别模块和关系识别模块;由实体识别模块根据文本向量,确定出目标电子病历的第一实体词预测结果;由关系识别模块根据文本向量,进行实体词关系预测,确定出目标电子病历中医学实体词的第一词关系预测结果;根据以二维矩阵形式表示的第一实体词预测结果和第一词关系预测结果,进行事件抽取处理,得到目标电子病历的临床发现事件。这样,通过本申请的技术方案,可有效的节约内存、缩短推理时间以及提高事件抽取准确率。
Description
技术领域
本申请涉及医疗数据处理技术领域,尤其是涉及一种临床发现事件的抽取方法及装置。
背景技术
随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据是电子病历。电子病历包含丰富的医疗数据,其中有部分为非结构化文本数据,文本数据准确的归一化对实现临床决策辅助系统、内涵质控、鉴别诊断等应用的重要的帮助。而临床发现事件抽取为医学文本数据的信息抽取基础任务之一。
针对事件抽取的任务一般而言,会拆分两个任务:一个任务是做命名实体将指定类型的医学实体找出来,另一个任务将找出来的这些医学实体进行关系识别,既实体间是否存在关系。若存在关系挂载在一起组合成临床事件。目前常用事件抽取是使用串行的pipeline方式,先做命名实体任务,然后再做关系识别任务,由于使用pipline方式,会存在两个模型部署到现场,并且两个任务没办法相互提供信息互补,从而存在内存占用大、推理时间长以及事件抽取准确率低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种临床发现事件的抽取方法及装置,可有效的节约内存、缩短推理时间以及提高事件抽取准确率。
本申请实施例提供了一种临床发现事件的抽取方法,所述抽取方法包括:
获取需进行临床发现事件抽取的目标电子病历;
将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;
由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;
由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;
根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件。
可选的,所述根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件,包括:
根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词;
根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词;
将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
可选的,通过以下步骤构建所述事件抽取模型:
获取多个添加有真实标签的样本电子病历;所述真实标签包括实体词真实标签和词关系真实标签,所述实体词真实标签和所述词关系真实标签以二维矩阵形式进行表示;
将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果;
针对每个样本电子病历,基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值;
基于每个样本电子病历的目标损失函数值,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述事件抽取模型。
可选的,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,包括:
针对每个样本电子病历,由所述实体识别模块对该样本电子病历进行实体边界预测,确定该样本电子病历的实体边界结果;所述实体边界预测用于预测该样本电子病历包括的医学实体词,所述实体边界结果以二维矩阵形式表示;
对所述实体边界结果中预测出的医学实体词进行实体类型预测,确定词类型预测结果;
使用所述词类型预测结果对所述实体边界结果进行更新,确定出该样本电子病历的所述第二实体词预测结果。
可选的,所述由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果,包括:
针对每个样本电子病历,由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵;
将所述二维首矩阵和所述二维尾矩阵合并,得到该样本电子病历的二维矩阵形式表示的第二词关系预测结果。
可选的,所述基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值,包括:
使用该样本电子病历的第二实体词预测结果和实体词真实标签进行误差计算,确定出该样本电子病历的第一损失函数值;
使用该样本电子病历的第二词关系预测结果和词关系真实标签进行误差计算,确定出该样本电子病历的第二损失函数值;
使用该样本电子病历的第一损失函数值和第二损失函数值进行加权求和,得到该样本电子病历的目标损失函数值。
可选的,所述对所述初始事件抽取模型的模型参数进行更新,包括:
对所述初始事件抽取模型中的参数共享模块、实体识别模块和关系识别模块的参数进行更新。
本申请实施例还提供了一种临床发现事件的抽取装置,所述抽取装置包括:
获取模块,用于获取需进行临床发现事件抽取的目标电子病历;
处理模块,用于将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;
第一确定模块,用于由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;
第二确定模块,用于由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;
抽取模块,用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件。
可选的,所述抽取模块在用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件时,所述抽取模块用于:
根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词;
根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词;
将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
可选的,所述抽取装置还包括模型构建模块,所述模型构建模块用于:
获取多个添加有真实标签的样本电子病历;所述真实标签包括实体词真实标签和词关系真实标签,所述实体词真实标签和所述词关系真实标签以二维矩阵形式进行表示;
将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果;
针对每个样本电子病历,基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值;
基于每个样本电子病历的目标损失函数值,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述事件抽取模型。
可选的,所述模型构建模块在用于由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果时,所述模型构建模块用于:
针对每个样本电子病历,由所述实体识别模块对该样本电子病历进行实体边界预测,确定该样本电子病历的实体边界结果;所述实体边界预测用于预测该样本电子病历包括的医学实体词,所述实体边界结果以二维矩阵形式表示;
对所述实体边界结果中预测出的医学实体词进行实体类型预测,确定词类型预测结果;
使用所述词类型预测结果对所述实体边界结果进行更新,确定出该样本电子病历的所述第二实体词预测结果。
可选的,所述模型构建模块在用于由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果时,所述模型构建模块用于:
针对每个样本电子病历,由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵;
将所述二维首矩阵和所述二维尾矩阵合并,得到该样本电子病历的二维矩阵形式表示的第二词关系预测结果。
可选的,所述模型构建模块在用于基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值时,所述模型构建模块用于:
使用该样本电子病历的第二实体词预测结果和实体词真实标签进行误差计算,确定出该样本电子病历的第一损失函数值;
使用该样本电子病历的第二词关系预测结果和词关系真实标签进行误差计算,确定出该样本电子病历的第二损失函数值;
使用该样本电子病历的第一损失函数值和第二损失函数值进行加权求和,得到该样本电子病历的目标损失函数值。
可选的所述模型构建模块560在用于对所述初始事件抽取模型的模型参数进行更新时,所述模型构建模块560用于:
对所述初始事件抽取模型中的参数共享模块、实体识别模块和关系识别模块的参数进行更新。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的抽取方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的抽取方法的步骤。
本申请实施例提供的一种临床发现事件的抽取方法及装置,所述抽取方法包括:获取需进行临床发现事件抽取的目标电子病历;将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件。
这样,通过本申请提出的二维指针网络方式,解决实体间嵌套的问题。通过两步法方式,首先确定实体词的边界,再确定类型,相对于直接识别实体边界和类型,边界任务更简单,使得整体实体识别效果更好,从而提高后续事件抽取结果的准确性。此外使实体识别模块和关系识别模块直接使用参数共享模块的输出结果进行实体识别和关系识别,可以不用部署两个模型,能有效节约内存,并且通过一个模型解决两个任务可节约任务推理时间,此外通过共享信息,相互补充,可以提升彼此的表现进而提高临床发现事件抽取结果的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种临床发现事件的抽取方法的流程图;
图2为本申请提供的确定一种实体词预测结果的原理示意图;
图3为本申请提供的确定一种词关系预测结果的原理示意图;
图4为本申请提供的一种事件抽取模型的结构示意图;
图5为本申请实施例所提供的一种临床发现事件的抽取装置的结构示意图之一;
图6为本申请实施例所提供的一种临床发现事件的抽取装置的结构示意图之二;
图7为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据是电子病历。电子病历包含丰富的医疗数据,其中有部分为非结构化文本数据,文本数据准确的归一化对实现临床决策辅助系统、内涵质控、鉴别诊断等应用的重要的帮助。而临床发现事件抽取为医学文本数据的信息抽取基础任务之一。现如今,针对事件抽取的任务一般而言,会拆分两个任务:一个任务是做命名实体将指定类型的医学实体找出来,另一个任务将找出来的这些医学实体进行关系识别,既实体间是否存在关系。若存在关系挂载在一起组合成临床事件。目前常用事件抽取是使用串行的pipeline方式,先做命名实体任务,然后再做关系识别任务,由于使用pipline方式,会存在两个模型部署到现场,并且两个任务没办法相互提供信息互补,从而存在内存占用大、推理时间长以及事件抽取准确率低的问题。
基于此,本申请实施例提供了一种临床发现事件的抽取方法及装置,可有效的节约内存、缩短推理时间以及提高事件抽取准确率。
请参阅图1,图1为本申请实施例所提供的一种临床发现事件的抽取方法的流程图。
需要说明的是,临床发现指的是疾病的表现,泛指患者不适感觉以及通过检查得知的异常表现,主要包括症状、体征。
临床发现事件抽取是医学数据处理中的一项任务,需要从病历中抽取临床发现事件的多个维度的信息,示例的,所述多个维度包括解剖部位、主体词、描述词,以及发生状态。
如图1中所示,本申请实施例提供的抽取方法,包括:
S101、获取需进行临床发现事件抽取的目标电子病历。
这里,所述目标电子病历中包括至少一个短文本。
S102、将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块。
这里,所述参数共享模块可为预先微调好的BERT模型。这样通过引入BERT模型进行文本向量转化处理,使得实体识别模块和关系识别模块的输入信息相同,从而实现了信息共享。
示例的,当所述目标电子病历包括多个短文本时,所述将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块,包括:
针对所述目标电子病历中的每个短文本,根据文本顺序依次将每个短文本输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块依次对输入的短文本进行文本向量转化处理,确定出每个短文本的文本向量,然后依次将确定出的文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块。
S103、由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果。
这里,所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示。
其中,所述实体识别模块中包括实体边界预测单元和类型预测单元,在进行实体预测时,先由实体边界预测单元基于所述文本向量,预测所述目标电子病历中包括的哪些词语为医学实体词,然后再通过类型预测单元对实体边界预测单元判断出的医学实体词进行类型预测,确定出每个医学实体词对应的词类型。
示例的,所述词类型可包括解剖部位、主体词、描述词、发生状态以及其他。
需要说明的是,这里提出的进行先实体边界预测再实体类型预测处理,是由模型训练阶段的处理过程决定的,而提出两步法的原因是为了解决样本不均衡的问题,通过先进行实体识别再进行类型识别,对于某种类型存在较少的实体词的训练样本,后续也可以进行精准预测。
而对实体词预测结果以二维矩阵形式表示也是由模型训练阶段的处理过程决定的,而本申请中之所以采用二维矩阵形式进行表示是为了解决实体嵌套的问题。
需要说明的,现有技术多采用BIO方法,将每个元素标注为“B-X”、“I-X”或者“O”;“B-X”此元素在此片段的开头,“I-X”此元素在此片段的中间位置,“O”表示不属于任何类型而改方案解决不了实体嵌套的方法,比如“头晕”短语,“头晕”为主体词,“头”为解剖部位,通过BIO方法,通常无法将类型为解剖部位的“头”识别出来。而通过二维矩阵的方式即可解决实体嵌套不识别的问题。
示例的,请参阅图2,图2为本申请提供的确定一种实体词预测结果的原理示意图,其中,列为词的开始,行为词的结束,若列和行交叉的位置打上不为0的id,可知以列词开始到行词结束的实体。对应的实体类型就为id对应的类型。这里,以电子病历“患者存在头昏较前加重”为例,预先指定词类型所对应的ID值{1:主体词、2:解剖部位、3:发生状态、4:描述词},其中,图2中的(a)为先进行实体边界预测所确定出的结果,基于图2中的(a)的标注可知,{列:存,行:在},{列:头,行:头},{列:头,行:昏},{列:较,行:重},那么列到行可组成识别的实体词包括:“存在”为一个医学实体词,“头”为一个医学实体词,“头昏”为一个医学实体词,“较前加重”为一个医学实体词。然后再进行实体类型预测处理,得到图2中的(b),根据(b)中的标注可知,“存在”的类型为发生状态,“头”的类型为解剖部位,“头昏”的类型为主体词,“较前加重”的类型为描述词。
故,通过二维矩阵的方式,将“头”和“头昏”这种存在嵌套的实体词也可以识别出来。
此外,当所述目标电子病历中包括多个短文本时,由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果,包括:针对每个短文本,由所述实体识别模块根据该短文本的文本向量,进行先实体边界预测再实体类型预测处理,确定出该短文本的第一实体词预测结果,然后再基于所有短文本的第一实体词预测结果,确定出所述目标电子病历的第一实体词预测结果。
S104、由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果。
这里,所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位。
其中,所述关系识别模块中包括首位识别单元、尾位识别单元以及合并单元,所述关系识别模块所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果,包括:由所述关系识别模块中的首位识别单元、尾位识别单元分别根据所述文本向量,进行存在关系的实体词的首位识别和尾位识别,确定出以二维矩阵形式表示的首位关系预测结果和尾位关系预测结果,然后再通过合并单元将首位关系预测结果和尾位关系预测结果合并,确定出所述目标电子病历中医学实体词的第一词关系预测结果。
示例的,请参阅图3,图3为本申请提供的确定一种词关系预测结果的原理示意图,其中,将存在首字符关系的用1来表示,将存在尾字符关系的用2来表示,两医学实体词的首位和尾位均存在关系才可认定两实体词存在关系,如图3中的(a)为首位识别所确定出的首位关系预测结果,如图3中的(b)为尾位识别所确定出的尾位关系预测结果,将图3中的(a)和(b)合并,即可确定出图3中的(c),根据图3中的(c)的标注可知,“头昏”和“存在”存在关系,“头昏”和“头”存在关系,“头昏”和“较前加重”存在关系。
此外,当所述目标电子病历中包括多个短文本时,所述由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果,包括:针对每个短文本,由所述关系识别模块根据该短文本的文本向量,进行实体词关系预测处理,确定出该短文本的第一词关系预测结果,然后再基于所有短文本的第一词关系预测结果,确定出所述目标电子病历的第一词关系预测结果。
S105、根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件。
这里,根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件,包括:根据所述第一实体词预测结果和所述第一词关系预测结果,由所述事件抽取模型中的抽取模块进行事件抽取处理,得到所述目标电子病历的临床发现事件。
这里,当所述目标电子病历中包括多个短文本时,所述根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件,包括:针对每个短文本,根据该短文本的第一实体词预测结果和第一词关系预测结果,进行事件抽取处理,得到该短文本的临床发现事件,基于所有短文本的临床发现事件,确定出目标电子病历的临床发现事件。
在本申请提供的一种实施方式中,所述根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件,包括:
S1051、根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词。
这里,所述预设词类型为从医学实体词所对应的多个类型中选定的某个或多个类型。
例如,所述预设词类型可以为主体词,这样,确定出的目标医学实体词为“头昏”。
此外,还可以对词类型进行等级划分,例如,将词类型划分为核心级别和属性级别,其中词类型为主体词为核心级别,词类型不为主体词的为属性级别。这样,所述预设词类型可以根据等级进行指定,例如,所述词类型为核心级别的词类型。
S1052、根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词。
示例的,请基于参阅图3,根据图3中的(c)可知,当确定目标医学实体词为“头昏”时,关联医学实体词包括“存在”、“头”以及“较前加重”。
S1053、将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
继续上述示例根据步骤S1051和S1052确定出的目标医学实体词和关联医学实体词,最终得到所述目标电子病历的临床发现事件为:主体词“头昏”、解剖部位“头”、发生状态“存在”、描述词“较前加重”。
示例的,请参阅图4,图4为本申请提供的一种事件抽取模型的结构示意图。在本申请提供的一种实施方式中,通过以下步骤构建所述事件抽取模型:
S201、获取多个添加有真实标签的样本电子病历。
这里,所述真实标签包括实体词真实标签和词关系真实标签,所述实体词真实标签和所述词关系真实标签以二维矩阵形式进行表示。
示例的,请继续参阅图2、图3,所述实体词真实标签的表现形式如图2中的(b)所示。所述词关系真实标签的表现形式如图3中的(c)所示。
S202、将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果。
这里,每个样本电子病历均可以确定出一个第二实体词预测结果和一个第二词关系预测结果。所述第二实体词预测结果的表现形式如图2中的(b)所示,所述第二词关系预测结果的表现形式如图3中的(c)所示。
其中,在将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历第二词关系预测结果之前,所述抽取方法还包括:
针对每个样本电子病历,由所述事件抽取模型中的参数共享模块对该样本电子病历进行文本向量转化处理,确定该样本电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块。
在本申请提供的一种实施方式中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,包括:
S20211、针对每个样本电子病历,由所述实体识别模块对该样本电子病历进行实体边界预测,确定该样本电子病历的实体边界结果。
这里,所述实体边界预测用于预测该样本电子病历包括的医学实体词,所述实体边界结果以二维矩阵形式表示。
示例的,如图4所示,所述由所述实体识别模块对该样本电子病历进行实体边界预测,包括:由所述实体识别模块中的实体边界预测单元对该样本电子病历进行实体边界预测。
示例的,请参阅图2,所述实体边界结果的表现形式如图2中的(a)所示。
S20212、对所述实体边界结果中预测出的医学实体词进行实体类型预测,确定词类型预测结果。
示例的,如图4所示,所述对所述实体边界结果中预测出的医学实体词进行实体类型预测,包括:由所述实体识别模块中的类型预测单元对所述实体边界结果中预测出的医学实体词进行实体类型预测。
S20213、使用所述词类型预测结果对所述实体边界结果进行更新,确定出该样本电子病历的所述第二实体词预测结果。
示例的,如图4所示,所述使用所述词类型预测结果对所述实体边界结果进行更新,包括:由所述实体识别模块中的类型预测单元对所述实体边界结果进行更新。
在本申请提供的一种实施方式中,所述由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果,包括:
S20221、针对每个样本电子病历,由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵。
示例的,如图4所示,所述由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵,包括:由所述关系识别模块中的首位识别单元对该样本电子病历中存在关系的医学实体词的首位进行预测,得到二维首矩阵;由所述关系识别模块中的尾位识别单元对该样本电子病历中存在关系的医学实体词的尾位进行预测,得到二维尾矩阵。
示例的,请参阅图3,所述二维首矩阵的表现形式如图3中的(a)所示,所述二维尾矩阵的表现形式如图3中的(b)所示。
S20222、将所述二维首矩阵和所述二维尾矩阵合并,得到该样本电子病历的二维矩阵形式表示的第二词关系预测结果。
这里,所述将所述二维首矩阵和所述二维尾矩阵合并,包括:由所述关系识别模块中的合并单元将所述二维首矩阵和所述二维尾矩阵合并。
S203、针对每个样本电子病历,基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值。
在一种实施方式中,所述所述基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值,包括:
S2031、使用该样本电子病历的第二实体词预测结果和实体词真实标签进行误差计算,确定出该样本电子病历的第一损失函数值。
S2032、使用该样本电子病历的第二词关系预测结果和词关系真实标签进行误差计算,确定出该样本电子病历的第二损失函数值。
S2033、使用该样本电子病历的第一损失函数值和第二损失函数值进行加权求和,得到该样本电子病历的目标损失函数值。
这里,预先设定第一损失函数和第二损失函数对应的权重系数。
S204、基于每个样本电子病历的目标损失函数值,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述事件抽取模型。
这里,每确定出一个目标损失函数值后,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新一次。
在一种实施方式中,所述对所述初始事件抽取模型的模型参数进行更新,包括:对所述初始事件抽取模型中的参数共享模块、实体识别模块和关系识别模块的参数进行更新。
这样,通过本申请提出的二维指针网络方式,解决实体间嵌套的问题。通过两步法方式,首先确定实体词的边界,再确定类型,相对于直接识别实体边界和类型,边界任务更简单,使得整体实体识别效果更好,从而提高后续事件抽取结果的准确性。此外使实体识别模块和关系识别模块直接使用参数共享模块的输出结果进行实体识别和关系识别,可以不用部署两个模型,能有效节约内存,并且通过一个模型解决两个任务可节约任务推理时间,此外通过共享信息,相互补充,可以提升彼此的表现进而提高临床发现事件抽取结果的准确性。
请参阅图5、图6,图5为本申请实施例所提供的一种临床发现事件的抽取装置的结构示意图之一,图6为本申请实施例所提供的一种临床发现事件的抽取装置的结构示意图之二。如图5中所示,所述抽取装置500包括:
获取模块510,用于获取需进行临床发现事件抽取的目标电子病历;
处理模块520,用于将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;
第一确定模块530,用于由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;
第二确定模块540,用于由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;
抽取模块550,用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件。
可选的,所述抽取模块550在用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件时,所述抽取模块550用于:
根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词;
根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词;
将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
可选的,如图6所示,所述抽取装置500还包括模型构建模块560,所述模型构建模块560用于:
获取多个添加有真实标签的样本电子病历;所述真实标签包括实体词真实标签和词关系真实标签,所述实体词真实标签和所述词关系真实标签以二维矩阵形式进行表示;
将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果;
针对每个样本电子病历,基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值;
基于每个样本电子病历的目标损失函数值,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述事件抽取模型。
可选的,所述模型构建模块560在用于由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果时,所述模型构建模块560用于:
针对每个样本电子病历,由所述实体识别模块对该样本电子病历进行实体边界预测,确定该样本电子病历的实体边界结果;所述实体边界预测用于预测该样本电子病历包括的医学实体词,所述实体边界结果以二维矩阵形式表示;
对所述实体边界结果中预测出的医学实体词进行实体类型预测,确定词类型预测结果;
使用所述词类型预测结果对所述实体边界结果进行更新,确定出该样本电子病历的所述第二实体词预测结果。
可选的,所述模型构建模块560在用于由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果时,所述模型构建模块560用于:
针对每个样本电子病历,由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵;
将所述二维首矩阵和所述二维尾矩阵合并,得到该样本电子病历的二维矩阵形式表示的第二词关系预测结果。
可选的,所述模型构建模块560在用于基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值时,所述模型构建模块560用于:
使用该样本电子病历的第二实体词预测结果和实体词真实标签进行误差计算,确定出该样本电子病历的第一损失函数值;
使用该样本电子病历的第二词关系预测结果和词关系真实标签进行误差计算,确定出该样本电子病历的第二损失函数值;
使用该样本电子病历的第一损失函数值和第二损失函数值进行加权求和,得到该样本电子病历的目标损失函数值。
可选的所述模型构建模块560在用于对所述初始事件抽取模型的模型参数进行更新时,所述模型构建模块560用于:
对所述初始事件抽取模型中的参数共享模块、实体识别模块和关系识别模块的参数进行更新。
请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1至图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1至图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种临床发现事件的抽取方法,其特征在于,所述抽取方法包括:
获取需进行临床发现事件抽取的目标电子病历;
将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;
由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;所述实体识别模块中包括实体边界预测单元和类型预测单元,所述由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果,包括:先由实体边界预测单元基于所述文本向量,预测所述目标电子病历中包括的医学实体词,然后再通过类型预测单元对实体边界预测单元判断出的医学实体词进行类型预测,确定出每个医学实体词对应的词类型,确定出所述目标电子病历的第一实体词预测结果;其中,所述第一实体词预测结果对应的二维矩阵中的列为词头,行为词尾,若所述第一实体词预测结果对应的二维矩阵中存在不为0的ID值时,根据所述ID值的位置确定以列字开始至行字结束的医学实体词,根据所述ID值确定所述医学实体词的实体类型;
由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;所述关系识别模块中包括首位识别单元、尾位识别单元以及合并单元;所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果,包括:由所述关系识别模块中的首位识别单元、尾位识别单元分别根据所述文本向量,进行存在关系的实体词的首位识别和尾位识别,确定出以二维矩阵形式表示的首位关系预测结果的二维首矩阵和尾位关系预测结果的二维尾矩阵,然后再通过合并单元将所述二维首矩阵和所述二维尾矩阵合并,确定出所述目标电子病历中医学实体词的第一词关系预测结果;
根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件;
所述根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件,包括:
根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词;
根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词;
将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
2.根据权利要求1所述的抽取方法,其特征在于,通过以下步骤构建所述事件抽取模型:
获取多个添加有真实标签的样本电子病历;所述真实标签包括实体词真实标签和词关系真实标签,所述实体词真实标签和所述词关系真实标签以二维矩阵形式进行表示;
将所述多个样本电子病历依次输入至初始事件抽取模型中,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,以及由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果;
针对每个样本电子病历,基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值;
基于每个样本电子病历的目标损失函数值,对所述初始事件抽取模型进行迭代训练并对所述初始事件抽取模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述事件抽取模型。
3.根据权利要求2所述的抽取方法,其特征在于,由所述初始事件抽取模型中的实体识别模块依次对每个样本电子病历进行实体预测,得到每个样本电子病历的第二实体词预测结果,包括:
针对每个样本电子病历,由所述实体识别模块对该样本电子病历进行实体边界预测,确定该样本电子病历的实体边界结果;所述实体边界预测用于预测该样本电子病历包括的医学实体词,所述实体边界结果以二维矩阵形式表示;
对所述实体边界结果中预测出的医学实体词进行实体类型预测,确定词类型预测结果;
使用所述词类型预测结果对所述实体边界结果进行更新,确定出该样本电子病历的所述第二实体词预测结果。
4.根据权利要求2所述的抽取方法,其特征在于,所述由所述初始事件抽取模型中的关系识别模块依次对每个样本电子病历进行实体词关系预测,得到每个样本电子病历的第二词关系预测结果,包括:
针对每个样本电子病历,由所述关系识别模块分别对该样本电子病历中存在关系的医学实体词的首位和尾位进行预测,得到二维首矩阵和二维尾矩阵;
将所述二维首矩阵和所述二维尾矩阵合并,得到该样本电子病历的二维矩阵形式表示的第二词关系预测结果。
5.根据权利要求2所述的抽取方法,其特征在于,所述基于该样本电子病历的所述第二实体词预测结果、所述第二词关系预测结果以及所述真实标签,确定该样本电子病历的目标损失函数值,包括:
使用该样本电子病历的第二实体词预测结果和实体词真实标签进行误差计算,确定出该样本电子病历的第一损失函数值;
使用该样本电子病历的第二词关系预测结果和词关系真实标签进行误差计算,确定出该样本电子病历的第二损失函数值;
使用该样本电子病历的第一损失函数值和第二损失函数值进行加权求和,得到该样本电子病历的目标损失函数值。
6.根据权利要求2所述的抽取方法,其特征在于,所述对所述初始事件抽取模型的模型参数进行更新,包括:
对所述初始事件抽取模型中的参数共享模块、实体识别模块和关系识别模块的参数进行更新。
7.一种临床发现事件的抽取装置,其特征在于,所述抽取装置包括:
获取模块,用于获取需进行临床发现事件抽取的目标电子病历;
处理模块,用于将所述目标电子病历输入至预先训练好的事件抽取模型中,由所述事件抽取模型中的参数共享模块对所述目标电子病历进行文本向量转化处理,确定所述目标电子病历的文本向量,并将所述文本向量共享至所述事件抽取模型中的实体识别模块和关系识别模块;
第一确定模块,用于由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果;所述第一实体词预测结果包括医学实体词预测结果以及所述医学实体词的词类型预测结果,所述第一实体词预测结果以二维矩阵形式表示;所述实体识别模块中包括实体边界预测单元和类型预测单元,所述由所述实体识别模块根据所述文本向量,进行先实体边界预测再实体类型预测处理,确定出所述目标电子病历的第一实体词预测结果,包括:先由实体边界预测单元基于所述文本向量,预测所述目标电子病历中包括的医学实体词,然后再通过类型预测单元对实体边界预测单元判断出的医学实体词进行类型预测,确定出每个医学实体词对应的词类型,确定出所述目标电子病历的第一实体词预测结果;其中,所述第一实体词预测结果对应的二维矩阵中的列为词头,行为词尾,若所述第一实体词预测结果对应的二维矩阵中存在不为0的ID值时,根据所述ID值的位置确定以列字开始至行字结束的医学实体词,根据所述ID值确定所述医学实体词的实体类型;
第二确定模块,用于由所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果;所述第一词关系预测结果以二维矩阵形式表示,所述二维矩阵中标注有存在关系的两医学实体词的首位和尾位;所述关系识别模块中包括首位识别单元、尾位识别单元以及合并单元;所述关系识别模块根据所述文本向量,进行实体词关系预测,确定出所述目标电子病历中医学实体词的第一词关系预测结果,包括:由所述关系识别模块中的首位识别单元、尾位识别单元分别根据所述文本向量,进行存在关系的实体词的首位识别和尾位识别,确定出以二维矩阵形式表示的首位关系预测结果的二维首矩阵和尾位关系预测结果的二维尾矩阵,然后再通过合并单元将所述二维首矩阵和所述二维尾矩阵合并,确定出所述目标电子病历中医学实体词的第一词关系预测结果;
抽取模块,用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件;
所述抽取模块子啊用于根据所述第一实体词预测结果和所述第一词关系预测结果,进行事件抽取处理,得到所述目标电子病历的临床发现事件时,所述抽取模块用于:
根据所述第一实体词预测结果中的词类型预测结果,确定为预设词类型的目标医学实体词;
根据所述第一词关系预测结果,确定与所述目标医学实体词存在关系的关联医学实体词;
将所述目标医学实体词和所述关联医学实体词从所述目标电子病历中抽取出来,并基于所述第一实体词预测结果对抽取的每个医学实体词添加对应的词类型预测结果,得到所述目标电子病历的临床发现事件。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的抽取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904583.XA CN116631642B (zh) | 2023-07-24 | 2023-07-24 | 一种临床发现事件的抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904583.XA CN116631642B (zh) | 2023-07-24 | 2023-07-24 | 一种临床发现事件的抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631642A CN116631642A (zh) | 2023-08-22 |
CN116631642B true CN116631642B (zh) | 2023-11-03 |
Family
ID=87636914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310904583.XA Active CN116631642B (zh) | 2023-07-24 | 2023-07-24 | 一种临床发现事件的抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631642B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8745093B1 (en) * | 2000-09-28 | 2014-06-03 | Intel Corporation | Method and apparatus for extracting entity names and their relations |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114840642A (zh) * | 2022-05-10 | 2022-08-02 | 合肥讯飞数码科技有限公司 | 事件抽取方法、装置、设备及存储介质 |
CN114840662A (zh) * | 2021-02-02 | 2022-08-02 | 京东科技控股股份有限公司 | 事件信息抽取方法、装置及电子设备 |
CN115472252A (zh) * | 2022-09-22 | 2022-12-13 | 华侨大学 | 基于对话的电子病历生成方法、装置、设备和存储介质 |
CN115879453A (zh) * | 2022-11-17 | 2023-03-31 | 常州大学 | 一种融合词汇边界及语义信息的实体识别及关系抽取方法 |
-
2023
- 2023-07-24 CN CN202310904583.XA patent/CN116631642B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8745093B1 (en) * | 2000-09-28 | 2014-06-03 | Intel Corporation | Method and apparatus for extracting entity names and their relations |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
CN114840662A (zh) * | 2021-02-02 | 2022-08-02 | 京东科技控股股份有限公司 | 事件信息抽取方法、装置及电子设备 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114840642A (zh) * | 2022-05-10 | 2022-08-02 | 合肥讯飞数码科技有限公司 | 事件抽取方法、装置、设备及存储介质 |
CN115472252A (zh) * | 2022-09-22 | 2022-12-13 | 华侨大学 | 基于对话的电子病历生成方法、装置、设备和存储介质 |
CN115879453A (zh) * | 2022-11-17 | 2023-03-31 | 常州大学 | 一种融合词汇边界及语义信息的实体识别及关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116631642A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11328220B2 (en) | Prediction characterization for black box machine learning models | |
US11468989B2 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN112016318B (zh) | 基于解释模型的分诊信息推荐方法、装置、设备及介质 | |
CN112990294B (zh) | 行为判别模型的训练方法、装置、电子设备及存储介质 | |
CN113535986B (zh) | 一种应用于医学知识图谱的数据融合方法及装置 | |
CN111310232A (zh) | 数据脱敏方法及装置、电子设备、存储介质 | |
CN112562791A (zh) | 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质 | |
CN111435410A (zh) | 用于医疗文本的关系抽取方法及其装置 | |
CN109871866B (zh) | 用于医院内感染预测的模型训练方法、装置、设备及介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
JP7043429B2 (ja) | 医療テキスト中の医療エンティティを識別するための方法、装置およびコンピュータ読取可能な記憶媒体 | |
CN113010785B (zh) | 用户推荐方法及设备 | |
CN112883736A (zh) | 医疗实体关系抽取方法和装置 | |
CN116631642B (zh) | 一种临床发现事件的抽取方法及装置 | |
CN115359865A (zh) | 病例数据推送方法、装置、计算机设备和存储介质 | |
WO2022249407A1 (ja) | アセスメント支援システム、アセスメント支援方法、及び記録媒体 | |
CN114970727A (zh) | 多标签文本分类方法、系统及计算机设备 | |
CN113723436A (zh) | 数据的处理方法、装置、计算机设备和存储介质 | |
CN112712866A (zh) | 一种确定文本信息相似度的方法及装置 | |
CN110851503B (zh) | 医疗模式转换识别方法及装置、电子设备、存储介质 | |
CN113505599B (zh) | 病历文书中实体概念的提取方法、装置及可读存储介质 | |
CN112863627B (zh) | 医疗质控信息检测方法、系统以及存储介质 | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
CN117725979A (zh) | 模型训练方法及装置、电子设备及计算机可读存储介质 | |
CN113901110A (zh) | 数据呈现方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |