CN115798661A - 临床医学领域的知识挖掘方法和装置 - Google Patents

临床医学领域的知识挖掘方法和装置 Download PDF

Info

Publication number
CN115798661A
CN115798661A CN202211295025.XA CN202211295025A CN115798661A CN 115798661 A CN115798661 A CN 115798661A CN 202211295025 A CN202211295025 A CN 202211295025A CN 115798661 A CN115798661 A CN 115798661A
Authority
CN
China
Prior art keywords
entity
clinical
data
decoder
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211295025.XA
Other languages
English (en)
Inventor
朱恩伟
刘奕洋
李劲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoke Ningbo Life And Health Industry Research Institute
Original Assignee
Guoke Ningbo Life And Health Industry Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoke Ningbo Life And Health Industry Research Institute filed Critical Guoke Ningbo Life And Health Industry Research Institute
Priority to CN202211295025.XA priority Critical patent/CN115798661A/zh
Publication of CN115798661A publication Critical patent/CN115798661A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种临床医学领域的知识挖掘方法和装置,涉及人工智能技术领域。该方法的一个具体实施方式包括:获取临床文本原始数据来形成临床文本语料库、临床医学词典和临床文本训练数据;使用临床文本语料库和临床医学词典来调整预训练模型,得到临床医学语言模型;将临床文本训练数据输入临床医学语言模型,得到上下文语义数据;将上下文语义数据输入用于执行多种任务的解码器从而训练所述解码器;临床医学语言模型以及训练完成的所述解码器组成临床医学知识挖掘模型;将待测临床文本输入临床医学知识挖掘模型以确定其中的实体、实体属性和实体间关系。该实施方式能够建立联合实体识别、实体属性提取和实体间关系抽取的多任务知识挖掘模型。

Description

临床医学领域的知识挖掘方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种临床医学领域的知识挖掘方法和装置。
背景技术
知识挖掘主要包括实体识别、实体属性提取和实体间关系抽取,属于自然语言的基础任务,目前相关研究主要都致力于通用领域,取得了良好的表现,但是对于临床医学领域至今还未出现突破性进展。由于临床文本的结构化程度低,具有高度灵活性,同样的语义可以有多种不同的表达方式,因此对模型的语义理解能力有较高要求。并且,临床文本中存在大量重复性描述,会影响模型识别精度。此外,现有的模型优化聚焦在单个任务上,缺乏对实体识别、实体属性提取、实体间关系抽取等多个任务之间的关联性进行考量进而实现多任务框架的知识挖掘。
发明内容
有鉴于此,本发明实施例提供一种临床医学领域的知识挖掘方法和装置,能够建立联合实体识别、实体属性提取和实体间关系抽取的多任务知识挖掘模型,同时具有较高的语义理解能力并降低了重复性文本对模型识别精度造成的影响。
为实现上述目的,根据本发明的一个方面,提供了一种临床医学领域的知识挖掘方法。
本发明实施例的临床医学领域的知识挖掘方法包括:获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典;针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型;将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据;将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型;将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
可选地,所述对所述临床文本原始数据执行去重处理,包括:确定所述临床文本原始数据中的相似语义字段,根据所述相似语义字段执行去重处理;和/或,确定所述临床文本原始数据中存在文本内容包含关系的特定字段,根据所述特定字段执行去重处理;和/或,确定所述临床文本原始数据中的相似文本,根据所述相似文本执行去重处理。
可选地,所述确定所述临床文本原始数据中的相似文本,包括:对任一临床文本原始数据进行分词得到多个词语,将各词语特征向量的加权平均值确定为该临床文本原始数据的初始向量;对所述初始向量的每一分量执行二值化处理,得到该临床文本原始数据的特征向量;使用任意两个临床文本原始数据的特征向量计算所述两个临床文本原始数据的相似度,将相似度大于预设阈值的任意两个临床文本原始数据确定为相似文本。
可选地,所述实体解码器中含有归一化层和条件随机场,所述条件随机场用于体现连续实体类别之间的依赖关系。
可选地,所述依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器,包括:基于所述实体知识表征数据和所述实体标签的对比来构造第一损失函数;基于所述实体属性知识表征数据和所述实体属性标签的对比来构造第二损失函数;基于所述实体间关系知识表征数据和所述实体间关系标签的对比来构造第三损失函数;将第一损失函数、第二损失函数和第三损失函数的加权和确定为所述目标损失函数。
可选地,所述临床文本原始数据来源于病历、病程记录和出院记录;所述预训练模型包括BERT。
为实现上述目的,根据本发明的另一方面,提供了一种临床医学领域的知识挖掘装置。
本发明实施例的临床医学领域的知识挖掘装置可以包括:预处理单元,用于获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典;预训练单元,用于:针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型;编码单元,用于将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据;解码单元,用于将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型;应用单元,用于:将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
可选地,所述预处理单元进一步用于:确定所述临床文本原始数据中的相似语义字段,根据所述相似语义字段执行去重处理;和/或,确定所述临床文本原始数据中存在文本内容包含关系的特定字段,根据所述特定字段执行去重处理;和/或,确定所述临床文本原始数据中的相似文本,根据所述相似文本执行去重处理。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的临床医学领域的知识挖掘方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的临床医学领域的知识挖掘方法。
根据本发明的技术方案,上述发明中的实施例具有如下优点或有益效果:
首先,利用病历、病程记录、出院记录等临床文本原始数据组成临床文本语料库,并对其执行自动化的知识挖掘和人工校验之后形成临床医学词典。接着,在由通用领域语料库训练而成的预训练模型BERT(Bidirectional Encoder Representation fromTransformers,Transformers模型的双向编码器表示)基础上使用临床文本语料库和临床医学词典进行临床医学领域的定向强化训练,从而得到兼顾通用语义理解能力和临床医学专业理解能力的临床医学语言模型。之后,将用于执行实体识别任务的实体解码器、用于执行实体属性提取任务的实体属性解码器和用于执行实体间关系抽取的实体间关系解码器进行组合并与临床医学语言模型连接来形成多任务知识挖掘框架,在以上框架中,通过独特的数据处理流程来体现多个任务之间的关联关系,由此克服单任务处理框架下的数据孤立缺陷,提升模型的信息提取准确性,确保对临床文本的有效利用。最后,在由临床文本原始数据生成临床文本训练数据之前,本发明可以基于相似字段、相互包含字段、相似文本等多种方式进行去重处理,避免了重复文本对模型识别精度的不利影响。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例中临床医学领域的知识挖掘方法的主要步骤示意图;
图2是本发明实施例中临床医学领域的知识挖掘方法的具体流程示意图;
图3是本发明实施例的预训练模型的调整示意图;
图4是本发明实施例的临床医学知识挖掘模型的结构示意图;
图5是本发明实施例中临床医学领域的知识挖掘装置的组成部分示意图;
图6是根据本发明实施例可以应用于其中的示例性系统架构图;
图7是用来实现本发明实施例中临床医学领域的知识挖掘方法的电子设备结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例中临床医学领域的知识挖掘方法的主要步骤示意图,图2是本发明实施例中临床医学领域的知识挖掘方法的具体流程示意图,参见图1和图2。
本发明实施例的临床医学领域的知识挖掘方法可具体按照如下步骤执行:
步骤S101:获取临床文本原始数据,对临床文本原始数据执行去重处理,执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典。
本步骤为数据预处理步骤。在本发明实施例中,临床文本原始数据可以从病历、病程记录和出院记录中获得,获得之后,可以进行结构化表达和去重处理,以避免重复文本对模型精度带来的不利影响。去重方式可以是以下的一种或多种:
第一种去重方式,确定临床文本原始数据中的相似语义字段,根据相似语义字段执行去重处理。也就是说,首先判断临床文本原始数据中内容相似的多个字段,此后只保留其中的一个字段而删除其它多余字段。示例性地,最终保留的主要字段可以是:体格检查、病历特点、病程记录、主要化验结果、诊疗经过、出院情况、出院医嘱等。
第二种去重方式,确定临床文本原始数据中存在文本内容包含关系的多个特定字段,根据特定字段执行去重处理。例如,在两个特定字段中,第一特定字段的内容已经全部包含在第二特定字段中,此时即可删除第一特定字段的内容。
第三种去重方式,确定临床文本原始数据中的相似文本,根据相似文本执行去重处理。例如,对于两个相似文本,删除其中的一个较短的文本保留另一较长的文本。
作为一个优选方案,可以使用以下方式来判别相似文本。具体地,首先,对任一临床文本原始数据进行分词得到多个词语,接着,将各词语特征向量(例如TF-IDF向量)的加权平均值确定为该临床文本原始数据的初始向量。此后,对该临床文本原始数据的初始向量的每一分量执行二值化处理,得到该临床文本原始数据的特征向量,例如,在分量大于零时置为1,否则置为零。最后,使用任意两个临床文本原始数据的特征向量来计算这两个临床文本原始数据的相似度,并将相似度大于预设阈值的任意两个临床文本原始数据确定为相似文本。以上相似度可以是各种相似度如余弦相似度、皮尔逊相关系数,也可以是根据数据距离(如海明距离、欧式距离)表示的相似度。
执行去重处理之后形成的临床文本原始数据可以组成临床文本语料库用于后续步骤,对执行去重处理后的临床文本原始数据执行自动化的知识挖掘以及人工校验能够构建包含海量词语的临床医学词典,对执行去重处理后的临床文本原始数据进行人工标注可以得到临床文本训练数据。可以理解,对应于实体识别任务、实体属性提取任务和实体间关系抽取任务,以上人工标注的标签包括实体标签、实体属性标签和实体间关系标签。具体场景中,以上实体标签可以包括实体类别和实体位置,实体类别可以包括疾病、症状、检查、治疗、药物等,实体位置可以包括实体在文本中的起始位置和结束位置。实体属性可以随实体类别的不同而异,例如疾病的属性包括急性病和慢性病。实体间关系例如某种疾病导致某种症状,某种药物治疗某种疾病。
由于人工方式标注的效率较低,在本发明实施例中,可以使用以下基于规则模板的方法来自动确定临床文本原始数据中的实体、实体属性和实体间关系,即使用规则模板实现临床文本原始数据的自动标注。可以理解,基于规则模板的信息抽取方式具有较高的准确性,在效果上可以接近人工标注。但是,由于一个规则模板能够匹配的文本数量有限,因此需要编写大量的规则模板,这需要耗费大量的人力成本,基于以上考虑,本发明提出以下技术方案,通过人工编写的少量规则模板自动生成多个模板来实现文本匹配和信息抽取。
具体地,在任一由人工编写的信息抽取模板(该模板是能够成功应用的已有模板,下称为人工编写模板)中,具有多个通配符,一个通配符可以对应一个类别(可以是实体类别、实体属性类别或者实体间关系类别),还具有多个固定词语,在本方案中,首先对人工编写模板中除通配符之外的部分进行分词,得到多个固定词语,此后,以每一通配符和每一固定词语为单位进行全排列,每一种排列方式形成一个自动化模板,最后,对这些自动化模板进行筛选后得到最终模板用于临床文本原始数据的自动化标注,从而以自动化的方式生成大量的可用模板来执行自动标注,避免了使用大量人力来编写模板以及需要大量人力进行临床文本原始数据的标注。
以上筛选同样可以通过自动化方式进行,其中的一个可选方式为:对于任一自动化模板,使用该自动化模板在临床医学语料库中进行匹配,得到其匹配文本(下称为第一文本),再使用人工编写模板(是该自动化模板对应的人工编写模板)在临床医学语料库中进行匹配,得到其匹配文本(下称为第二文本),计算任一第一文本与任一第二文本的相似度,并判断各相似度的平均值是否大于预设的相似度阈值,如果大于,则说明第一文本的信息提取效果较佳,将该自动化模板作为最终模板,否则说明其效果不佳进而舍弃。
例如,对于人工编写模板:[药品]一般[使用情况]用在患有[疾病]的[人群],能够匹配类似于“去疼片一般能够用在患有头疼的老人”的文本,其中,[]为通配符,里边的内容表示对应的类别。在进行分词之后,可以在四个通配符之外得到一般、用在、患有、的四个固定词语,此后可以将四个通配符与四个固定词语全排列产生40320-1个自动化模板(需要减去一个人工编写模板),进而执行自动化的前述筛选过程之后即可得到大量的最终模板。
步骤S102:针对预先基于通用领域语料库训练而成的预训练模型,使用临床文本语料库和临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整预训练模型,得到临床医学语言模型。
本步骤为预训练模型的调整步骤。实际应用中,以上预训练模型可以是BERT。在本步骤中,将在中文通用领域语料库上进行了预训练得到的预训练模型BERT的权重,作为临床医学语言模型的初始化权重,此后输入上一步得到的临床文本语料库,并融入上一步构建的医学词典进行训练,得到临床医学语言模型。
具体地,首先,对临床文本语料库中的文本执行分字处理。接着,使用临床文本语料库和临床医学词典构建包括两句话的句对从而生成NSP任务(即预测句对中的两句话是否具有前后关系),对临床文本语料库和临床医学词典中的部分汉字进行掩码以生成MLM任务(即,对符合预设条件的汉字进行掩码,通过上下文来预测被掩码的字)。此后,以预训练模型的参数权重作为原始权重,通过NSP任务和MLM任务对预训练模型进行调整。具体应用中,本步骤中还可以建立科室分类任务,来判别每一文本对应的科室,以便于后续的数据分析。图3是本发明实施例的预训练模型的调整示意图,以上模型调整过程可参见图3,图3中的CLS为句子的起始符号,SEP为两个句子之间的间隔符号。
步骤S103:将临床文本训练数据输入临床医学语言模型进行编码,得到临床文本训练数据的上下文语义数据。
本步骤为编码步骤。在本步骤中,利用临床医学语言模型对此前得到的临床文本训练数据进行编码,获取文本中长距离的上下文语义信息,将上下文语义信息压缩到临床医学领域的特征映射中,最终得到上述上下文语义数据。此上下文语义数据可以被多个任务共享使用。
实际应用中,任一条临床文本训练数据可以表示为X=x1,...,xT,其中T表示序列长度,其实体标签表示为
Figure SMS_1
实体属性标签表示为
Figure SMS_2
实体间关系标签表示为
Figure SMS_3
该序列的所有实体标签集合为Sbio={B-typeEnt,I-typeEnt,O|typeEnt∈SEnt}其中,B表示实体的首字,I表示实体的非首字,SEnt表示实体标签集合,则实体对应的类别标签
Figure SMS_4
类似地,
Figure SMS_5
其中SAttr表示实体属性标签集合,SRel表示实体间关系标签集合。在将以上临床文本训练数据X=x1,...,xT输入临床医学语言模型之后,可以得到上下文语义数据h=h1,h2,...,hT
步骤S104:将上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据实体知识表征数据、实体属性知识表征数据、实体间关系知识表征数据以及经过标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练实体解码器、实体属性解码器和实体间关系解码器;临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型。
本步骤为解码步骤。首先说明解码部分的模型结构。分别对应于实体识别任务、实体属性提取任务和实体间关系抽取任务的实体解码器、实体属性解码器和实体间关系解码器依次连接,并与处在这三个解码器前方的临床医学语言模型连接,组成全链路的临床医学知识挖掘模型。特别地,以上实体解码器中含有归一化层(如Softmax层)和条件随机场,条件随机场能够体现连续实体类别之间的依赖关系。
以上结构的数据处理方式为,首先,上下文语义数据输入到实体解码器,得到包括实体类别和实体位置的实体知识表征数据。示例性地,实体知识表征数据可以是含有实体类别、起始位置、结束位置的三元组的形式。接着,实体知识表征数据经过池化处理(如平均池化、最大池化等)形成实体数据。此后,实体数据进入实体属性解码器,得到表示实体属性信息的实体属性知识表征数据。最后,连续两个实体的实体数据拼接在一起进而输入实体间关系解码器,得到这两个实体的实体间关系知识表征数据。可以看到,在以上数据处理过程中,实体属性提取任务和实体间关系抽取任务的执行需要借助实体识别任务的识别结果,由此能够使模型学习到多种任务之间的依赖关系从而提高模型的语义理解能力,提高信息抽取准确性。
此后,可以构造损失函数来训练以上解码器。在本发明实施例中,可以基于实体知识表征数据和此前人工标注的实体标签的对比来构造第一损失函数,基于实体属性知识表征数据和此前人工标注的实体属性标签的对比来构造第二损失函数,基于实体间关系知识表征数据和此前人工标注的实体间关系标签的对比来构造第三损失函数,最后将第一损失函数、第二损失函数和第三损失函数的加权和确定为用于执行临床医学知识挖掘模型的整体训练的目标损失函数。可以理解,该训练仅针对三个解码器,不针对临床医学语言模型,临床医学语言模型的参数已经固定。
如此,以上解码步骤以多任务交互的方式使用上一步获取的上下文语义数据,提取不同任务所需的独有特征,并以知识传递的方式形成复合特征来获得不同任务的识别结果,进而构建损失函数进行模型训练。以下说明解码步骤的具体实现。
在实体识别任务中,将上下文语义数据h输入实体解码器,实体解码器的计算逻辑为:
Figure SMS_6
其中,等式左边的参数表示实体知识表征数据,We和be是可学习参数,第一损失函数如下所示:
Figure SMS_7
在实体解码器中,采用条件随机场CRF融入连续实体标签之间的依赖关系,得到三元组Ent=(typeEnt,start,end),即(实体类型,起始位置,结束位置),三元组的含义与以上实体知识表征数据类似。
在实体属性提取任务中,首先将上一步得到的实体知识表征数据进行池化处理,得到实体数据hent,此后将实体数据输入实体属性解码器,实体属性解码器的计算逻辑如下:
Figure SMS_8
其中,等式左边为实体属性知识表征数据,Wa和ba是可学习参数,第二损失函数如下所示:
Figure SMS_9
在实体间关系抽取任务中,将连续两个实体的实体数据hent进行拼接输入实体间关系解码器,实体间关系解码器的计算逻辑如下:
Figure SMS_10
其中,等式左边为实体间关系知识表征数据,Wr和br是可学习参数,第三损失函数如下所示:
Figure SMS_11
最后,得到用于训练以上三个编码器的目标损失函数L:
L=Lent1Lattr2Lrel
其中λ1,λ2分别为平衡系数。
步骤S105:将待测临床文本输入临床医学知识挖掘模型以确定待测临床文本中的医学实体、医学实体属性和医学实体间关系。
本步骤为测试及应用步骤。在本步骤中,将待测临床文本进行预处理后输入临床医学知识挖掘模型中的临床医学语言模型,即可从三个解码器中输出医学实体、医学实体属性和医学实体间关系。
图4是本发明实施例的临床医学知识挖掘模型的结构示意图,参见图4。其中的BERT即为经临床文本语料库和临床医学词典训练而成的临床医学语言模型,输入BERT的token表示分字处理得到的每个字,embedder and encoder表示嵌入和编码,representations即为上下文语义数据,ent.decoder表示实体解码器,同一层的O、B-S、I-S、B-D、I-D均为实体知识表征数据中的实体类别,pooling表示池化处理,attr.decoder表示实体属性解码器,concat表示拼接,rel.decoder表示实体间关系解码器,classifier表示分类器。
在本发明实施例的技术方案中,提供了一种数据预处理方案来筛选有效数据,提高模型训练精度,同时设计了一种联合实体识别任务、关系提取任务和属性提取任务的多任务临床医学知识挖掘方法,该方法能够将通用领域模型应用到临床医学领域,借助三个任务之间的内在相关性,从临床文本中识别代表医学实体的文本片段及其对应的实体类别(如疾病、症状、检查、治疗、药物等),并且提取每个医学实体潜在的属性信息(如疾病可以是既往的或否认的)以表示对应实体在上下文中表达的语义区别于默认状态,同时还结合原始临床文本判断任意两个医学实体之间是否存在关系以及关系类别(如疾病导致症状、药物治疗疾病等)。
需要说明的是,对于前述的各方法实施例,为了便于描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,某些步骤事实上可以采用其它顺序进行或者同时进行。此外,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是实现本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图5所示,本发明实施例提供的临床医学领域的知识挖掘装置500可以包括:预处理单元501、预训练单元502、编码单元503、解码单元504和应用单元505。
其中,预处理单元501用于获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典。预训练单元502用于:针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型。编码单元503用于将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据。
解码单元504用于将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型。应用单元505用于:将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
在本发明实施例中,所述预处理单元501进一步用于:确定所述临床文本原始数据中的相似语义字段,根据所述相似语义字段执行去重处理;和/或,确定所述临床文本原始数据中存在文本内容包含关系的特定字段,根据所述特定字段执行去重处理;和/或,确定所述临床文本原始数据中的相似文本,根据所述相似文本执行去重处理。
较佳地,所述预处理单元501进一步用于:对任一临床文本原始数据进行分词得到多个词语,将各词语特征向量的加权平均值确定为该临床文本原始数据的初始向量;对所述初始向量的每一分量执行二值化处理,得到该临床文本原始数据的特征向量;使用任意两个临床文本原始数据的特征向量计算所述两个临床文本原始数据的相似度,将相似度大于预设阈值的任意两个临床文本原始数据确定为相似文本。
作为一个优选方案,所述实体解码器中含有归一化层和条件随机场,所述条件随机场用于体现连续实体类别之间的依赖关系。
实际应用中,所述解码器504进一步用于:基于所述实体知识表征数据和所述实体标签的对比来构造第一损失函数;基于所述实体属性知识表征数据和所述实体属性标签的对比来构造第二损失函数;基于所述实体间关系知识表征数据和所述实体间关系标签的对比来构造第三损失函数;将第一损失函数、第二损失函数和第三损失函数的加权和确定为所述目标损失函数。
此外,在本发明实施例中,所述临床文本原始数据来源于病历、病程记录和出院记录;所述预训练模型包括BERT。
根据本发明实施例的技术方案,设计了联合医学实体识别、医学实体属性提取、医学实体间关系抽取等三个任务的知识挖掘方案,用于识别临床文本中的医学实体文本片段及其对应的实体类别和属性信息,同时提取任意两个医学实体间存在的关系以及关系类别,提高了模型识别精度,解决了临床医学知识缺乏有效利用的问题。
图6示出了可以应用本发明实施例的临床医学领域的知识挖掘方法或临床医学领域的知识挖掘装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用,例如知识挖掘应用(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所操作的知识挖掘应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的信息抽取请求进行处理,并将处理结果(例如信息抽取结果--仅为示例)反馈给终端设备601、602、603。
需要说明的是,本发明实施例所提供的临床医学领域的知识挖掘方法一般由服务器605执行,相应地,临床医学领域的知识挖掘装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的临床医学领域的知识挖掘方法。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有计算机系统700操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括预处理单元、预训练单元、编码单元、解码单元和应用单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,预处理单元还可以被描述为“向预训练单元提供临床文本语料库和临床医学词典的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典;针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型;将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据;将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型;将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
在本发明实施例的技术方案中,能够识别临床文本中代表医学实体的文本片段及其对应的实体类别,并且获得每个医学实体潜在的属性信息,同时提取任意两个医学实体间的关系以及关系类别,解决了临床文本知识难以挖掘的问题,且识别精确率高,效果好。本发明在临床医学中的应用能够缓解当前的医疗资源紧缺问题,对临床文本知识利用具有一定的理论意义和实际应用价值。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.种临床医学领域的知识挖掘方法,其特征在于,包括:
获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;
对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典;
针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型;
将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据;
将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;
依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型;
将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
2.根据权利要求1所述的方法,其特征在于,所述对所述临床文本原始数据执行去重处理,包括:
确定所述临床文本原始数据中的相似语义字段,根据所述相似语义字段执行去重处理;和/或,
确定所述临床文本原始数据中存在文本内容包含关系的特定字段,根据所述特定字段执行去重处理;和/或,
确定所述临床文本原始数据中的相似文本,根据所述相似文本执行去重处理。
3.根据权利要求2所述的方法,其特征在于,所述确定所述临床文本原始数据中的相似文本,包括:
对任一临床文本原始数据进行分词得到多个词语,将各词语特征向量的加权平均值确定为该临床文本原始数据的初始向量;
对所述初始向量的每一分量执行二值化处理,得到该临床文本原始数据的特征向量;
使用任意两个临床文本原始数据的特征向量计算所述两个临床文本原始数据的相似度,将相似度大于预设阈值的任意两个临床文本原始数据确定为相似文本。
4.根据权利要求1所述的方法,其特征在于,所述实体解码器中含有归一化层和条件随机场,所述条件随机场用于体现连续实体类别之间的依赖关系。
5.根据权利要求1所述的方法,其特征在于,所述依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器,包括:
基于所述实体知识表征数据和所述实体标签的对比来构造第一损失函数;
基于所述实体属性知识表征数据和所述实体属性标签的对比来构造第二损失函数;
基于所述实体间关系知识表征数据和所述实体间关系标签的对比来构造第三损失函数;
将第一损失函数、第二损失函数和第三损失函数的加权和确定为所述目标损失函数。
6.根据权利要求1所述的方法,其特征在于,所述临床文本原始数据来源于病历、病程记录和出院记录;
所述预训练模型包括BERT。
7.一种临床医学领域的知识挖掘装置,其特征在于,包括:
预处理单元,用于获取临床文本原始数据,对所述临床文本原始数据执行去重处理;执行去重处理后的临床文本原始数据组成临床文本语料库;对执行去重处理后的临床文本原始数据进行标注,得到临床文本训练数据;对执行去重处理后的临床文本原始数据执行知识挖掘以构建临床医学词典;
预训练单元,用于:针对预先基于通用领域语料库训练而成的预训练模型,使用所述临床文本语料库和所述临床医学词典来建立下一句预测NSP任务和掩码语言模型MLM任务以调整所述预训练模型,得到临床医学语言模型;
编码单元,用于将所述临床文本训练数据输入所述临床医学语言模型进行编码,得到所述临床文本训练数据的上下文语义数据;
解码单元,用于将所述上下文语义数据输入预设的实体解码器,得到包括实体类别和实体位置的实体知识表征数据;将所述实体知识表征数据经过池化处理形成的实体数据输入预设的实体属性解码器,得到表示各实体的属性信息的实体属性知识表征数据;将连续两个实体的实体数据进行拼接并输入预设的实体间关系解码器,得到实体间关系知识表征数据;依据所述实体知识表征数据、所述实体属性知识表征数据、所述实体间关系知识表征数据以及经过所述标注形成的实体标签、实体属性标签、实体间关系标签构造目标损失函数来训练所述实体解码器、所述实体属性解码器和所述实体间关系解码器;所述临床医学语言模型以及训练完成的实体解码器、实体属性解码器、实体间关系解码器依次连接以组成临床医学知识挖掘模型;
应用单元,用于:将待测临床文本输入所述临床医学知识挖掘模型以确定所述待测临床文本中的医学实体、医学实体属性和医学实体间关系。
8.根据权利要求7所述的装置,其特征在于,所述预处理单元进一步用于:
确定所述临床文本原始数据中的相似语义字段,根据所述相似语义字段执行去重处理;和/或,确定所述临床文本原始数据中存在文本内容包含关系的特定字段,根据所述特定字段执行去重处理;和/或,确定所述临床文本原始数据中的相似文本,根据所述相似文本执行去重处理。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202211295025.XA 2022-10-21 2022-10-21 临床医学领域的知识挖掘方法和装置 Pending CN115798661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211295025.XA CN115798661A (zh) 2022-10-21 2022-10-21 临床医学领域的知识挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211295025.XA CN115798661A (zh) 2022-10-21 2022-10-21 临床医学领域的知识挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN115798661A true CN115798661A (zh) 2023-03-14

Family

ID=85433462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211295025.XA Pending CN115798661A (zh) 2022-10-21 2022-10-21 临床医学领域的知识挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN115798661A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574159A (zh) * 2024-01-12 2024-02-20 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统
CN117807956A (zh) * 2023-12-29 2024-04-02 兰州理工大学 一种基于临床文本树结构的icd自动编码方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807956A (zh) * 2023-12-29 2024-04-02 兰州理工大学 一种基于临床文本树结构的icd自动编码方法
CN117574159A (zh) * 2024-01-12 2024-02-20 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统
CN117574159B (zh) * 2024-01-12 2024-05-10 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统

Similar Documents

Publication Publication Date Title
CN111090987B (zh) 用于输出信息的方法和装置
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN107679039B (zh) 用于确定语句意图的方法和装置
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN111078887B (zh) 文本分类方法和装置
CN107145485B (zh) 用于压缩主题模型的方法和装置
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN109522338B (zh) 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113688256B (zh) 临床知识库的构建方法、装置
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113297379A (zh) 一种文本数据多标签分类方法及装置
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN112364664A (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN110807097A (zh) 分析数据的方法和装置
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination