CN117131198A - 用于医学教学库的知识增强实体关系联合抽取方法及设备 - Google Patents
用于医学教学库的知识增强实体关系联合抽取方法及设备 Download PDFInfo
- Publication number
- CN117131198A CN117131198A CN202311404157.6A CN202311404157A CN117131198A CN 117131198 A CN117131198 A CN 117131198A CN 202311404157 A CN202311404157 A CN 202311404157A CN 117131198 A CN117131198 A CN 117131198A
- Authority
- CN
- China
- Prior art keywords
- entity
- span
- representation
- knowledge
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000012512 characterization method Methods 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 6
- 108090000623 proteins and genes Proteins 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 102000009331 Homeodomain Proteins Human genes 0.000 description 1
- 108010048671 Homeodomain Proteins Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例中提供了用于医学教学库的知识增强实体关系联合抽取方法及设备,属于数据处理技术领域,具体包括:利用词表征得到初始跨度表征;得到实体及实体间关系并将其作为未注入外部知识前的第一实体关系预测结果;构造医学数据集的外部知识图;更新得到融合全局信息的节点表征;采用基于注意力的去噪融合机制,基于注意力的评分机制为跨度和节点打分,按照得分加权融合跨度表征和节点表征;得到实体及实体间关系并将其作为注入外部知识后的第二实体关系预测结果;结合监督信息联合训练实体关系抽取模型;使用实体关系抽取模型对多视角医学资料进行实体识别和关系分类,形成医学教学资源库。通过本发明的方案,提高了识别效率、精度和适应性。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及用于医学教学库的知识增强实体关系联合抽取方法及设备。
背景技术
生物医学实体关系抽取旨在自动识别医学文本中的生物医学实体及其关系,是医学教学资源库建设的基础任务之一,为医学知识图谱构建、医学问答系统和临床决策支持系统等许多医学应用提供重要基础。近期的知识增强相关研究通常检索或利用工具从现有的医学本体库和知识库中提取与任务相关的知识,如实体的语义类型。为了对知识进行编码并保留知识图谱中的结构和语义信息,引入了复杂的知识表示算法。然而,在将知识库知识注入生物医学命名实体识别任务时也面临一些挑战:
(1)知识利用不充分。目前的研究普遍认为,在知识图谱中手动预定义的实体类型有利于实体和关系的提取,但很少有研究证明关系信息也能促进实体识别。实际上,实体间的关系能使实体建立联系,进行全局信息交互,为实体识别提供信号;
(2)结构化知识与非结构化文本之间的异构融合。知识注入涉及将实体和关系编码为数字表征,自TransE以来,已有各种知识表示算法被提出,然而,知识表示模型和语言表示模型的训练程序不同,使得它们的向量空间不一致,直接融合知识和文本不能带来预期的效果;
(3)知识噪声。给定一个文本,我们可以在知识库中找到跨度-实体的各种映射,其中一些与任务无关,容易使文本偏离正确的含义。在知识增强的医学命名实体识别中,区分有价值的外部知识(应予以认可)和噪声知识(应予以过滤)既是必要的,也是具有挑战性的。
可见,亟需一种高效精准且适应性强的用于医学教学库的知识增强实体关系联合抽取方法。
发明内容
有鉴于此,本发明实施例提供一种用于医学教学库的知识增强实体关系联合抽取方法及设备,至少部分解决现有技术中存在效率、精度和适应性较差的问题。
第一方面,本发明实施例提供了一种用于医学教学库的知识增强实体关系联合抽取方法,包括:
步骤1,获取有监督的医学数据集,将其输入大规模医学预训练语言模型进行分词和编码,得到词序列及其向量表征,枚举词序列中所有符合预设要求的跨度并利用词表征得到初始跨度表征;
步骤2,将初始跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为未注入外部知识前的第一实体关系预测结果;
步骤3,以医学数据集为输入,使用实体链接工具链接统一医学语言系统中的知识,利用知识中提及的概念、语义类型和语义关系,构造医学数据集的外部知识图;
步骤4,爬取外部知识图中节点和边的定义描述文本,利用医学预训练语言模型初始化节点和边的表征,通过关系图卷积神经网络实现全局信息交互,更新得到融合全局信息的节点表征;
步骤5,对齐跨度与文本外部知识图中的概念节点,采用基于注意力的去噪融合机制,基于注意力的评分机制为跨度和概念节点打分,按照得分加权融合跨度表征和概念节点表征,得到知识感知的跨度表征;
步骤6,将知识感知的跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为注入外部知识后的第二实体关系预测结果;
步骤7,根据第一实体关系预测结果和第二实体关系预测结果,结合监督信息联合训练实体关系抽取模型,优化模型参数,得到并保存训练好的实体关系抽取模型;
步骤8,收集多视角医学资料并预处理为符合模型输入的格式,使用训练好的实体关系抽取模型对预处理后的多视角医学资料进行实体识别和关系分类,形成医学教学资源库。
根据本发明实施例的一种具体实现方式,所述步骤1具体包括:
步骤1.1,获取有监督的医学数据集,标注实体的索引和类型,以及,关系的主宾实体和类型;
步骤1.2,将医学文本输入预训练语言模型进行分词和编码,输出子词序列及其表征;
步骤1.3,枚举所有包含预设数量子词的跨度,分词前属于同一个单词的子词作为整体纳入跨度中;
步骤1.4,拼接跨度的边界子词的表征、跨度的宽度特征向量和跨度中所有子词的注意力加权表示,作为初始跨度表征。
根据本发明实施例的一种具体实现方式,所述步骤3具体包括:
步骤3.1,将医学数据集输入实体链接工具的接口,输出文本对应的多条知识,提取每条知识中的位置索引、唯一概念标识符和语义类型,位置索引指向文本中触发该知识的文本片段,该文本片段映射到的统一医学语言系统中的一个标准概念,该概念具有唯一概念标识符,并标记有一个或多个语义类型;
步骤3.2,爬取统一医学语言系统共定义的全部语义类型和语义关系;
步骤3.3,以概念和语义类型作为节点,语义关系为边,为每条医学文本构建外部知识图。
根据本发明实施例的一种具体实现方式,所述步骤4具体包括:
步骤4.1,爬取统一医学语言系统中概念、语义类型及语义关系的定义描述文本,预处理为规范的长度;
步骤4.2,将定义描述文本输入大规模医学预训练语言模型,得到文本外部知识图中概念节点、语义类型节点及语义关系边的初始表征;
步骤4.3,使用三层的关系图卷积神经网络迭代更新文本外部知识图,输出最后一层隐藏层的结果,得到融合了邻居概念和语义关系信息的节点表达。
根据本发明实施例的一种具体实现方式,所述步骤5具体包括:
步骤5.1,根据文本外部知识图中概念节点的位置索引和跨度的边界词索引来对齐跨度和文本外部知识图中的概念节点,并将对齐后的概念节点作为该跨度的候选知识;
步骤5.2,将跨度的初始表征通过一个前馈网络映射为一个新的长度不变的向量,记为隐藏跨度表征,代表输入文本的本地上下文语义信息;
步骤5.3,拼接跨度的初始表征和隐藏跨度表征,拼接结果经过一个前馈网络映射为一个权重分数,代表输入文本上下文语义信息对跨度的重要程度;
步骤5.4,拼接跨度的初始表征和其在文本外部知识图中对应的一个候选节点的表征,拼接结果经过一个前馈网络映射为一个权重分数,代表该候选知识对跨度的重要程度;
步骤5.5,重复步骤5.4,得到该跨度所有候选知识的权重分数;
步骤5.6,标准化步骤5.3至步骤5.5得到的权重分数;
步骤5.7,根据标准化的权重分数,加权融合隐藏跨度表征和所有候选节点的表征,得到知识感知的跨度表征。
根据本发明实施例的一种具体实现方式,所述实体分类层为线性分类层,以跨度表征为输入,映射为固定长度并采用softmax函数激活,输出预测实体类型的概率分布,预测概率最大的实体类型作为实体预测结果。
根据本发明实施例的一种具体实现方式,所述关系分类层为线性分类层,以实体对表征为输入,映射为固定长度并采用softmax函数激活,输出预测关系类型的概率分布,预测概率最大的关系类型作为关系预测结果。
根据本发明实施例的一种具体实现方式,所述根据实体表征得到实体对表征的步骤,包括:
根据实体对中两个实体的主宾关系,拼接主语跨度表征、宾语跨度表征和主宾跨度表征对应位置元素相乘后的向量,拼接结果作为实体对表征。
根据本发明实施例的一种具体实现方式,所述步骤7具体包括:
步骤7.1,根据交叉熵损失函数和第一实体关系预测结果计算不使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.2,根据交叉熵损失函数和第二实体关系预测结果计算使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.3,计算整体损失函数并为使用外部知识后的损失分配更大的权重系数,其中,整体损失函数的表达式为/>;
步骤7.4,采用AdamW优化器和Dropout策略训练模型参数,优化模型参数,得到并保存训练好的实体关系抽取模型。
第二方面,本公开实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的基于多层级细化网络的少样本链接预测药物再利用方法。
本发明实施例中的用于医学教学库的知识增强实体关系联合抽取方法,包括:步骤1,获取有监督的医学数据集,将其输入大规模医学预训练语言模型进行分词和编码,得到词序列及其向量表征,枚举词序列中所有符合预设要求的跨度并利用词表征得到初始跨度表征;步骤2,将初始跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为未注入外部知识前的第一实体关系预测结果;步骤3,以医学数据集为输入,使用实体链接工具链接统一医学语言系统中的知识,利用知识中提及的概念、语义类型和语义关系,构造医学数据集的外部知识图;步骤4,爬取外部知识图中节点和边的定义描述文本,利用医学预训练语言模型初始化节点和边的表征,通过关系图卷积神经网络实现全局信息交互,更新得到融合全局信息的节点表征;步骤5,对齐跨度与文本外部知识图中的概念节点,采用基于注意力的去噪融合机制,基于注意力的评分机制为跨度和概念节点打分,按照得分加权融合跨度表征和概念节点表征,得到知识感知的跨度表征;步骤6,将知识感知的跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为注入外部知识后的第二实体关系预测结果;步骤7,根据第一实体关系预测结果和第二实体关系预测结果,结合监督信息联合训练实体关系抽取模型,优化模型参数,得到并保存训练好的实体关系抽取模型;步骤8,收集多视角医学资料并预处理为符合模型输入的格式,使用训练好的实体关系抽取模型对预处理后的多视角医学资料进行实体识别和关系分类,形成医学教学资源库。
本发明实施例的有益效果为:(1)提出一种知识增强生物医学实体关系抽取方法,该方法明确地编码和融合了来自统一医学语言系统的实体和关系知识,能够有效避免结构化知识和非结构化文本之间的异构融合,同时在区分有价值的知识和噪声知识方面表现出适度的能力;(2)采用基于跨度的编码方式,并在跨度层面进行知识增强,提供上下文感知和知识感知的跨度表示,潜在地整合到现有的基于跨度的模型中,达到增强效果,提高了效率、精度和适应性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种用于医学教学库的知识增强实体关系联合抽取方法的流程示意图;
图2为本发明实施例提供的一种用于医学教学库的知识增强实体关系联合抽取方法的具体实施过程示意图;
图3为本发明实施例提供的一种文本外部知识图建立示意图;
图4为本发明实施例提供的一种基于注意力的去噪融合机制示意图;
图5为本发明实施例提供的本发明方法与PubMedBERT编码实体表示的UMAP降维可视化对比图;
图6为本发明实施例提供的电子设备示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
随着大数据技术在各领域的应用,教学模式正在进行着思维方式与教育理念的革新,大数据背景下教学资源库的建设已成为教学发展的新趋势。为提高信息化技术在医学教学领域的应用水平,医学教学资源库建设得到了高度重视。但是目前医学教学资源数据量大、类型多、信息复杂,难以分辨和提取。随着大数据及人工智能技术的发展,其在提高资源利用率以及加强知识的表达与理解方面拥有巨大优势。如何运用大数据及人工智能技术,挖掘医学资源中的知识,建设规范化、结构化、具有实践指导价值的医学教学资源库,提高医学教学质量是当前高等医学教育领域的研究重点之一。
生物医学实体关系抽取旨在自动识别医学文本中的生物医学实体及其关系,是医学教学资源库建设的基础任务之一。与一般领域的实体相比,生物医学领域的实体具有嵌套和复杂的性质,这给医学实体识别带来难度,而实体识别的性能会直接影响到关系抽取。针对嵌套实体,一般的基于序列标注的实体关系抽取方法无法处理,因此出现了基于跨度的方法,这种方法简单而有效,可以直接枚举、表示和操作所有可能的跨度;针对复杂实体,目前已有的一些在大规模生物医学语料库中预先训练好的特定领域语言表示模型被证明能提高生物医学命名实体识别的性能,但这些模型在更复杂的、少见的医学术语、变体等方面仍存在医学专业知识不足的问题。幸运的是,医学领域有许多全面的本体库和知识库,其中最具代表性的是统一医学语言系统(UMLS),它包含400多万个实体及其语义信息,涵盖疾病、药物、蛋白质等。UMLS提供的高质量结构化专家领域知识对生物医学实体关系抽取有潜在的帮助,将其与现有的系统相结合值得研究。近期的相关研究通常从现有的医学本体库和知识库中提取与任务相关的知识用于增强。为了对知识进行编码并保留知识图谱中的结构和语义信息,引入了复杂的知识表示算法。然而,在注入知识库知识时仍面临一些挑战:
知识利用不充分。目前的研究普遍认为,在知识图谱中手动预定义的实体类型有利于实体和关系的提取,但很少有研究证明关系信息也能促进实体识别。实际上,实体间的关系能使实体建立联系,进行全局信息交互,为实体识别提供信号;
结构化知识与非结构化文本之间的异构融合。知识注入涉及将实体和关系编码为数字表征,自TransE以来,已有各种知识表示算法被提出,然而,知识表示模型和语言表示模型的训练程序不同,使得它们的向量空间不一致,直接融合知识和文本不能带来预期的效果;
知识噪声。给定一个文本,我们可以在知识库中找到跨度-实体的各种映射,其中一些与任务无关,容易使文本偏离正确的含义。在知识增强的医学命名实体识别中,区分有价值的外部知识(应予以认可)和噪声知识(应予以过滤)既是必要的,也是具有挑战性的。
本发明实施例提供一种用于医学教学库的知识增强实体关系联合抽取方法,所述方法可以应用于医学场景的医学教学过程中。
参见图1,为本发明实施例提供的一种用于医学教学库的知识增强实体关系联合抽取方法的流程示意图。如图1和图2所示,所述方法主要包括以下步骤:
步骤1,获取有监督的医学数据集,将其输入大规模医学预训练语言模型进行分词和编码,得到词序列及其向量表征,枚举词序列中所有符合预设要求的跨度并利用词表征得到初始跨度表征;
进一步的,所述步骤1具体包括:
步骤1.1,获取有监督的医学数据集,标注实体的索引和类型,以及,关系的主宾实体和类型;
步骤1.2,将医学文本输入预训练语言模型进行分词和编码,输出子词序列及其表征;
步骤1.3,枚举所有包含预设数量子词的跨度,分词前属于同一个单词的子词作为整体纳入跨度中;
步骤1.4,拼接跨度的边界子词的表征、跨度的宽度特征向量和跨度中所有子词的注意力加权表示,作为初始跨度表征。
具体实施时,枚举词序列中所有符合预设要求的跨度并利用词表征得到初始跨度表征的具体过程可以如下所示:
获取有监督的医学数据集,标注了实体的索引和类型、关系的主宾实体和类型,对于每个生物医学数据集,我们假定一个实体类型集合和一个关系类型集合,E中包含t种预定义实体类型,涉及疾病、化学物质、蛋白质等,R中包含k种预定义关系类型。给定一个医学文本X,首先将医学文本输入医学预训练语言模型(例如PubMedBERT,SciBERT等)中,进行分词和编码,得到n个切片/>,接着枚举X中所有可能的跨度(长度不超过L个切片)得到跨度集合/>,分词前属于同一个单词的词将作为整体纳入跨度中,对于每个跨度,拼接跨度的边界切片的表征、跨度的宽度特征向量和跨度中所有切片的注意力加权表示,作为跨度的初始表征,医学实体关系抽取任务就是为每个跨度预测其类型:/>,并为每个跨度对预测其关系类型:/>, />代表跨度是非实体或跨度对之间不存在关系。
例如,给定一个医学文本X,首先,使用医学预训练语言模型(例如PubMedBERT,SciBERT等)作为编码器对X进行分词和编码,得到n个切片及其上下文表示/>:
然后,我们枚举X中所有可能的跨度(长度不超过L个切片),得到跨度集合。如果一个词被医学预训练语言模型的分词器分割成多个切片,我们将把属于同一词的切片作为一个整体放入跨度中。对于每个跨度/>,上下文语义感知的初始跨度表征的计算方法如下:
其中FNN是一个从映射到/>的双层前馈神经网络。[;]表示拼接操作。start和end指的是跨度/>的边界切片在X中的索引。/>是学习到的跨度宽度特征向量。/>是/>中所有切片表示的注意力加权和,计算公式如下:
其中是跨度/>内的一个切片,FNN是一个从/>到1的映射。
步骤2,将初始跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为未注入外部知识前的第一实体关系预测结果;
进一步的,所述实体分类层为线性分类层,以跨度表征为输入,映射为固定长度并采用softmax函数激活,输出预测实体类型的概率分布,预测概率最大的实体类型作为实体预测结果。
进一步的,所述关系分类层为线性分类层,以实体对表征为输入,映射为固定长度并采用softmax函数激活,输出预测关系类型的概率分布,预测概率最大的关系类型为关系预测结果。
在上述实施例的基础上,所述根据实体表征得到实体对表征的步骤,包括:
根据实体对中两个实体的主宾关系,拼接主语跨度表征、宾语跨度表征和主宾跨度表征对应位置元素相乘后的向量,拼接结果作为实体对表征。
例如,在没有外部知识的情况下,将初始跨度表征输入一个前馈网络并经过softmax函数,以预测实体类型的概率分布/>:
其中FNN是一个从到/>的映射。
根据实体类型预测结果,筛选出Top K个最可能是实体的跨度组合成跨度对,计算每个跨度对的表征/>,输入另一个前馈网络并经过softmax函数,以预测实体对之间关系类型的概率分布/>:
其中表示向量对应位置元素相乘。[;]表示拼接操作。FNN是一个从/>到的映射。
步骤3,以医学数据集为输入,使用实体链接工具链接统一医学语言系统中的知识,利用知识中提及的概念、语义类型和语义关系,构造医学数据集的外部知识图;
在上述实施例的基础上,所述步骤3具体包括:
步骤3.1,将医学数据集输入实体链接工具的接口,输出文本对应的多条知识,提取每条知识中的位置索引、唯一概念标识符和语义类型,位置索引指向文本中触发该知识的文本片段,该文本片段映射到的统一医学语言系统中的一个标准概念,该概念具有唯一概念标识符,并标记有一个或多个语义类型;
步骤3.2,爬取统一医学语言系统共定义的全部语义类型和语义关系;
步骤3.3,以概念和语义类型作为节点,语义关系为边,为每条医学文本构建外部知识图。
具体实施时,统一医学语言系统(UMLS)作为外部知识库。UMLS有两个重要的部分:超级叙词表(Metathesaurus)和语义网络(Semantic Network)。超级叙词表包含数百万个细粒度的生物医学概念,每个概念都有一个唯一的概念标识符(CUI)并被标注了一个或多个语义类型,UMLS共定义了127种语义类型。语义网络中定义了54种语义关系,其中“is_a”是基本层次关系。概念和语义类型之间存在语义关系,语义类型和语义类型之间也存在语义关系。127种语义类型和54种语义关系之间共存在 6105个这样的关系三元组。以语义类型和语义关系作为桥梁,超级叙词表中的概念之间建立起了联系。
可以使用实体链接工具MetaMap为医学文本链接UMLS中的知识,每个输入文本都可以与多条知识相关联,每条知识都包含以下主要信息:位置索引(Pos_Info)、唯一概念标识符(CUI)和语义类型(Semtypes)。Pos_Info指向文本中触发该知识的文本片段,该文本片段映射到的UMLS中的一个标准概念,该概念具有唯一的概念标识符CUI,并标记有一个或多个语义类型Semtypes。一个文本片段可能会链接到多个概念。我们以概念和语义类型作为节点,以语义关系为边,为每条医学文本构建外部知识图。
以句子“另一个基因,被命名为罗姆-3,虽然不位于11号染色体上,但仍保留与罗姆波汀的LIM结构域的同源性。”为例,调用MetaMap接口得到对应的结果并构造如图3所示的外部知识图,矩形节点中标记了概念的标准名称及CUI,圆形节点中标记了概念的语义类型,有向边表示语义关系。
步骤4,爬取外部知识图中节点和边的定义描述文本,利用医学预训练语言模型初始化节点和边的表征,通过关系图卷积神经网络实现全局信息交互,更新得到融合全局信息的节点表征;
在上述实施例的基础上,所述步骤4具体包括:
步骤4.1,爬取统一医学语言系统中概念、语义类型及语义关系的定义描述文本,预处理为规范的长度;
步骤4.2,将定义描述文本输入大规模医学预训练语言模型,得到文本外部知识图中概念节点、语义类型节点及语义关系边的初始表征;
步骤4.3,使用三层的关系图卷积神经网络迭代更新文本外部知识图,输出最后一层隐藏层的结果,得到融合了邻居概念和语义关系信息的节点表达。
具体实施时,将构建的文本X的外部知识图记为,其中,N和R分别代表节点集合和关系集合,边集合/>是一个三元组集合。由于使用现有的知识表示算法(如transE)可能会导致知识图表征与文本表征之间的向量空间不对齐,因此我们使用前面编码文本时使用的医学预训练语言模型编码节点和边的定义描述文本,以此初始化节点和边的表示。由于/>是一个多关系图并且我们希望融合来自相邻节点的信息,因此使用了关系图卷积神经网络(RGCN)来更新节点/>的表示:
其中是节点/>在第l层的特征向量。/>是与/>存在关系/>的邻居节点的集合,/>是/>的一个邻居节点且/>。/>是一个正则化常数,设为/>,即关系/>下的邻居节点的个数。
与图卷积神经网络不同的是,关系图卷积神经网络引入了针对特定关系的转换。即在每一层更新节点的隐藏层表示的时候考虑边的类型和方向,不同类型的边使用不同的权重。关系图卷积神经网络适用于我们构建的多关系知识网络,可以发现和学习节点之间的潜在关系,经过多次信息传递迭代后,的全局信息(包括语义类型和关系)将被融合到每个概念节点的表示中。若/>代表关系图卷积神经网络最后一层的特征向量,/>通过一个简单的线性层进一步映射到一个与跨度表示/>维度相同的向量/>上:
步骤5,对齐跨度与文本外部知识图中的概念节点,采用基于注意力的去噪融合机制,基于注意力的评分机制为跨度和概念节点打分,按照得分加权融合跨度表征和概念节点表征,得到知识感知的跨度表征;
进一步的,所述步骤5具体包括:
步骤5.1,根据文本外部知识图中概念节点的位置索引和跨度的边界词索引来对齐跨度和文本外部知识图中的概念节点,并将对齐后的概念节点作为该跨度的候选知识;
步骤5.2,将跨度的初始表征通过一个前馈网络映射为一个新的长度不变的向量,记为隐藏跨度表征,代表输入文本的本地上下文语义信息;
步骤5.3,拼接跨度的初始表征和隐藏跨度表征,拼接结果经过一个前馈网络映射为一个权重分数,代表输入文本上下文语义信息对跨度的重要程度;
步骤5.4,拼接跨度的初始表征和其在文本外部知识图中对应的一个候选节点的表征,拼接结果经过一个前馈网络映射为一个权重分数,代表该候选知识对跨度的重要程度;
步骤5.5,重复步骤5.4,得到该跨度所有候选知识的权重分数;
步骤5.6,标准化步骤5.3至步骤5.5得到的权重分数;
步骤5.7,根据标准化的权重分数,加权融合隐藏跨度表征和所有候选节点的表征,得到知识感知的跨度表征。
具体实施时,对于每个跨度,有两个主要的信息来源:(1)输入文本的上下文;(2)外部知识图。对于前者,我们使用医学预训练语言模型来建模得到本地上下文感知的跨度表示(即/>),对于后者,我们使用关系图卷积神经网络来建模得到全局信息感知的知识表示(即/>)。我们的目标是有效融合二者并获得知识增强的跨度表示,用于实体关系预测。
首先,根据概念的Pos_Info和跨度的边界切片的索引(start和end)来对齐跨度和概念节点。如果节点的Pos_Info指向跨度/>,则节点/>为/>的候选概念,/>可能有多个候选概念,用/>表示/>的候选概念集合。例如,在图3中,“同源性”就有“同源基因”和“同源性(属性)”两个候选概念。
由于我们运行外部实体链接工具来链接知识库中的概念,而医学文本和知识库之间没有标准的对应关系,我们无法直接衡量链接性能。通常,工具会返回一些与文本无关的概念。将所有候选概念视为同等重要并融入本地上下文可能会导致错误的预测。因此,我们引入了一种如图4所示的基于注意力的去噪融合机制来强调有用的信息,弱化噪声的影响:
首先将映射为一个长度不变的新向量/>,/>记录输入文本中的上下文语境信息:/>
我们计算的得分/>,代表/>对跨度/>的重要程度,具体的做法是拼接/>和,然后通过一个前馈网络将它们映射为一个权重分数:
同样的,对于中的每一个候选概念/>,我们计算其得分/>,代表/>对跨度的重要程度:
然后,我们标准化这些分数:
最终的知识感知跨度表征的计算公式如下:
当所有的候选概念都是噪声时,我们需要给它们都分配更少的注意力,给本地上下文分配更多的注意力,这就是为什么我们要计算和/>,让/>和候选概念一起分配权重,而不是仅在候选概念之间分配权重。这样的设计使得当外部知识无法提供准确和有用的信息时,模型能够更多地关注输入文本的上下文信息,避免噪声影响,这在数据中的表现形式是增大/>,减小/>。
步骤6,将知识感知的跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为注入外部知识后的第二实体关系预测结果;
具体实施时,使用最终的知识感知跨度表示,我们可以预测实体类型的概率分布:
其中FNN是一个从到/>的映射。
根据实体类型预测结果,筛选出Top K个最可能是实体的跨度组合成跨度对, 计算每个跨度对的表征/>,输入另一个前馈网络并经过softmax函数,以预测实体对之间关系类型的概率分布/>:
其中表示向量对应位置元素相乘。[;]表示拼接操作。FNN是一个从/>到的映射。
步骤7,根据第一实体关系预测结果和第二实体关系预测结果,结合监督信息联合训练实体关系抽取模型,优化模型参数,得到并保存训练好的实体关系抽取模型;
在上述实施例的基础上,所述步骤7具体包括:
步骤7.1,根据交叉熵损失函数和第一实体关系预测结果计算不使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.2,根据交叉熵损失函数和第二实体关系预测结果计算使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.3,计算整体损失函数并为使用外部知识后的损失分配更大的权重系数,其中,整体损失函数的表达式为/>;
步骤7.4,采用AdamW优化器和Dropout策略训练模型参数,优化模型参数,得到并保存训练好的实体关系抽取模型。
具体实施时,采用交叉熵损失,损失函数定义为:
其中和/>分别代表不使用外部知识和使用外部知识时的实体分类损失,和/>分别代表不使用外部知识和使用外部知识时的关系分类损失。分别代表跨度/>的真实实体类型和实体对/>之间的真实关系类型。/>是一个超参数并且我们最终给/>分配更大权重。
步骤8,收集多视角医学资料并预处理为符合模型输入的格式,使用训练好的实体关系抽取模型对预处理后的多视角医学资料进行实体识别和关系分类,形成医学教学资源库。
具体实施时,可以收集权威医学文献教材,例如《生理学》、《药理学》、《诊断学》、《病理学》、《内科学》、《外科学》等教材中包括疾病相关的生理、生化、药理、病理、诊断、治疗、康复、预后、预防等多视角医学资料,提取其中的文本,将长文本分成多个医学预训练语言模型可以处理的长度的文本,然后将预处理后的医学语料输入训练好的实体关系联合抽取模型,输出实体及其关系,形成医学教学资源库。
本实施例提供的用于医学教学库的知识增强实体关系联合抽取方法,通过采用基于跨度的解码方式,借助医学预训练语言模型对文本和跨度进行初步语义表征;利用来自外部知识库(统一医学语言系统)的结构化知识构建文本外部知识图,借助医学预训练语言模型编码定义描述文本,初始化文本外部知识图的表征;通过关系图卷积神经网络更新文本外部知识图的表征,促进节点之间的交互,捕捉全局信息;出于外部知识库和文本之间没有标准的对应关系、可能引入知识噪声导致文本偏离原本的语义的难点考虑,设计了基于注意力的去噪融合机制,促进跨度与知识的融合,得到知识感知的跨度表征,用于实体和关系分类,从而实现医学教学资源库建设。
下面将结合一个实施例对本发明进行进一步说明,为了评估本发明的方法是否适用于生物医学命名实体识别任务,在四个流行的数据集上进行了实验。
NCBI-disease是用于疾病名称识别和规范化的数据集;BC5CDR有BC5CDR-disease、BC5CDR-chem和BC5CDR-both三个子数据集,分别标注了疾病、化学药品和疾病+化学药品;GENIA是最流行的嵌套实体语料库之一,它是基于GENIA v3.0.2语料库构建的,实体类型可以分类为五种。
我们沿用了以前工作中的训练集/验证集/测试集的分割方法,在验证集上监控训练过程,并报告在测试集上的最终结果。为避免数据集中标注的各类实体分布不均匀,我们使用微观精确率(Micro-P)、微观召回率(Micro-R)和微观F1值(Micro-F1)作为评估指标,计算公式如下:
其中、/>和/>分别表示第i类实体的阳性、假阳性和假阴性。
对于UMLS,我们使用UMLS 2021AB-full版本及其中定义的127种语义类型和54种语义关系;
对于语义类型和语义关系的定义描述文本,可以从美国国家医学图书馆获取;对于CUI概念的定义描述文本,我们使用定制工具MetamorphoSys创建超级叙词表子集并得到定义描述文本,MetamorphoSys的版本与UMLS版本一致;对于MetaMap,我们使用默认选项运行,不对其进行调参。
本框架使用PyTorch实现;使用GeForce RTX 2080 Ti GPU进行了训练;考虑到数据集来自生物医学领域,我们分别采用了两个医学预训练语言模型:scibert-scivocab-cased和pubmedbert-base-uncased作为编码器;在预训练语言模型编码器使用dropout进行正则化,dropout比率设置为[0.1,0.2];RGCN中dropout比率设置0.1;训练时的批次大小设置为[16,32],学习率设置为[2e-5, 5e-5],epoch设置为50,采用AdamW 优化器;最大跨度长度L设置为20;初始化跨度表征时跨度宽度特征向量的长度设置为20;损失函数中给使用外部知识的损失分配的系数/>设置为2。
在所有数据集中,我们分别使用SciBERT和PubMedBERT作为编码器进行实验。如表1所示,Our-SciBERT和Our-PubMedBERT在NCBI-Disease上表现出色,前者略优于后者。使用PubMedBERT进一步提高了BC5CDR-disease、BC5CDR-chem和GENIA的结果,F1值分别提高了1.20%、2.40%和1.45%。这种改进证明了预训练语言模型的影响,我们分析了潜在的原因如下:1) SciBERT 使用计算机科学领域和生物医学领域的论文进行训练。相比之下,PubMedBERT 更专注于生物医学领域,其训练数据是来自PubMed上的生物医学文献。因此,PubMedBERT 对生物医学术语有更深入的理解。2) UMLS与PubMed关系密切。UMLS的超级叙词表(Metathesaurus)由多个MeSH词汇表组成,而在PubMed文献中,MeSH术语被用于主题分类和关键词注释。这些MeSH术语和词汇表被整合到UMLS叙词表中。Our-PubMedBERT 在PubMedBERT 的基础上加入了来自UMLS的知识,因此具有更强的领域适应性。
表1
本实施例进行了消融实验,以验证框架中各部分的有效性。本发明使用以下设置来训练模型,并重复使用上述相同参数:
a、w/o 外部知识:不使用外部知识;
b、w/o 语义类型和关系:不使用语义类型和关系构建知识图,而是直接将概念节点的表征输入去噪融合模块;
c、w/o 语义关系:使用概念及其语义类型构建知识图;
d、w/o 语义关系类型:不考虑知识图中边(即语义关系)的类型和方向;
e、w/o 去噪:去除知识去噪模块,直接融合所有候选跨度。
表2展示了消融实验的结果,对于GENIA数据集:首先,将完整模型与设置(a)进行比较后发现,完整的知识增强策略提升了整体性能(Micro-F1 +1.14)。这证明了结合外部知识对生物医学命名实体识别的重要性,而 Micro-Recall的显著提高(+4.60)也证明了本发明的方法可以增强模型识别真实实体的能力。其次,将完整模型与设置 (b) 进行比较后发现,随着实体类型和关系信息的增加,Micro-F1也有所增加(+0.63)。第三,设置(c)和(d)的结果表明,性能的提高并不完全取决于实体信息,关系信息也发挥了作用。最后,与完整模型相比,在设置(e)中去除知识去噪模块会降低性能。这表明外部知识中可能存在噪声,而设计一种基于注意力的评分机制将有助于筛选对任务有帮助的知识。类似的,在不使用任何外部知识的情况下,模型在 NCBI-Disease数据集上的性能显著下降(Micro-F1 -3.92),(b)到(c)的结果也证明了知识感知框架中各个模块的有效性。
表2
外部知识的重要性分析
首先,我们认为知识库中的概念可以直接帮助实体分类。以图 3 中的"罗姆-3基因"为例,其定义如下:"罗姆-3是一个基因家族中的一个成员,也被称为类菱形蛋白3..."。"罗姆-3基因"可以帮助理解"罗姆-3"的含义。
其次,概念的语义类型可用于指导跨度类型的识别。例如,"罗姆-3基因"被标记为"基因或基因组"类型,对判断"罗姆-3基因"的类型的帮助显而易见。目前的研究普遍认为,在知识库中手动预设实体类型有利于实体和关系的提取,本发明的研究也支持这一观点。
实体之间的关系可以促进实体类型的识别。将不同的文本片段链接到相应的知识库概念后,可以通过语义类型之间的关系建立概念之间的间接联系。在识别"LIM域"时,即使是在大量医学文本语料库中训练过的PubMedBERT也可能会误将其归类为 "蛋白质"。此时,引入的"LIM域"概念的定义和语义类型也会进一步误导模型。但是,通过在"LIM域"和 "罗姆-3"之间建立语义关系,可以纠正模型的判断。
去噪模块的重要性分析时,由于使用实体链接工具(MetaMap)将数据集与外部知识库对齐,任务数据集中的实体与知识库中的概念之间没有标准化的映射关系,导致工具经常会返回许多与文本无关的候选实体。以图3中的句子为例,跨度"同源性"分别与"同源基因"和"同源性(属性)"两个概念相关联,前者会混淆模型的判断。因此,有必要设计一个去噪模块,帮助模型关注候选知识中的重要信息,忽略无关噪声。此外,还可能出现所有候选知识都是噪声的情况,因此在设计去噪模块时考虑跨度的局部上下文信息也至关重要。
为了更好地说明去噪的影响,对来自GENIA测试集的三个例子进行实验,如表3所示,每个示例都展示了四项信息:文本和跨度、真实实体类型、链接到的概念以及分配的权重。对于示例1中的 "同源结构域",候选概念C0598306并不能直接帮助将其识别为DNA,因此模型分配的权重较小,而更多地关注输入文本的上下文。相反,在示例2中,候选概念C0004561应该受到更多关注,因为它的语义类型与"B淋巴细胞"一致。结果表明,与示例1中"同源结构域"相比,示例2中"B淋巴细胞"被赋予的权重明显更高(从 6.16% 到27.88%)。在示例3中,"淋巴细胞"有两个不同的候选概念:C0024264和 C4018897。然而,前者为判断 "淋巴细胞"的类型提供了更准确的信息,因此模型赋予它的权重比后者高(约高4%)。这些例子表明,去噪模块可以让模型在忽略噪声的同时,更多地关注有用信息。
表3
为了更直观地说明实体和关系信息如何影响跨度的表示,在PubMedBERT和本方案所学习到的GENIA实体表示之间进行了UMAP降维映射比较。如图5所示,其中,(a)和(b)分别为PubMedBERT和本方案学习到的实体表示进行二维UMAP映射后的可视化结果,(c)和(d)分别为PubMedBERT和本方案学习到的实体表示进行三维UMAP映射后的可视化结果。很明显,与PubMedBERT即图5中(a)和(c)相比,本方案即图5中(b)和(d)中不同类型节点形成的聚类更密集,相互之间的距离也更大。因此,可以得出这样的结论:通过结合外部知识,模型可以学习到更有意义的跨度表示,从而在不同类型的跨度中表现出更强的分辨能力。同一类型的跨度表现出更大的相似性,而不同类型的跨度则表现出更大的不相似性,这一观察结果也支持了上述结论。
为了验证本发明的方案在识别新实体或罕见实体上的卓越性能,本发明将在GENIA训练集中未出现过或出现次数少于5次的实体定义为罕见实体,并计算了本方案在这些实体上的Micro-F1值,结果如表4所示。根据实验结果可知本发明的方案识别罕见实体的整体能力明显优于 PubMedBERT,其Micro-F1值平均提高了约2%。这再次佐证了本发明的结论:结合外部知识库的知识可以帮助识别新实体和不常见的实体。
表4
参见图6,本发明实施例还提供了一种电子设备60,该电子设备包括:至少一个处理器以及与该至少一个处理器通信连接的存储器。其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中的于医学教学库的知识增强实体关系联合抽取方法。
本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中的于医学教学库的知识增强实体关系联合抽取方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的于医学教学库的知识增强实体关系联合抽取方法。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备60的结构示意图。本发明实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备60可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备60操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备60与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备60,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本发明实施例的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.用于医学教学库的知识增强实体关系联合抽取方法,其特征在于,包括:
步骤1,获取有监督的医学数据集,将其输入大规模医学预训练语言模型进行分词和编码,得到词序列及其向量表征,枚举词序列中所有符合预设要求的跨度并利用词表征得到初始跨度表征;
步骤2,将初始跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为未注入外部知识前的第一实体关系预测结果;
步骤3,以医学数据集为输入,使用实体链接工具链接统一医学语言系统中的知识,利用知识中提及的概念、语义类型和语义关系,构造医学数据集的外部知识图;
步骤4,爬取外部知识图中节点和边的定义描述文本,利用医学预训练语言模型初始化节点和边的表征,通过关系图卷积神经网络实现全局信息交互,更新得到融合全局信息的节点表征;
步骤5,对齐跨度与文本外部知识图中的概念节点,采用基于注意力的去噪融合机制,基于注意力的评分机制为跨度和概念节点打分,按照得分加权融合跨度表征和概念节点表征,得到知识感知的跨度表征;
步骤6,将知识感知的跨度表征输入实体分类层进行预测得到实体,实体两两组合得到实体对,根据实体表征得到实体对表征,将实体对表征输入关系分类层进行预测,得到实体及实体间关系并将其作为注入外部知识后的第二实体关系预测结果;
步骤7,根据第一实体关系预测结果和第二实体关系预测结果,结合监督信息联合训练实体关系抽取模型,优化模型参数,得到并保存训练好的实体关系抽取模型;
步骤8,收集多视角医学资料并预处理为符合模型输入的格式,使用训练好的实体关系抽取模型对预处理后的多视角医学资料进行实体识别和关系分类,形成医学教学资源库。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤1.1,获取有监督的医学数据集,标注实体的索引和类型,以及,关系的主宾实体和类型;
步骤1.2,将医学文本输入预训练语言模型进行分词和编码,输出子词序列及其表征;
步骤1.3,枚举所有包含预设数量子词的跨度,分词前属于同一个单词的子词作为整体纳入跨度中;
步骤1.4,拼接跨度的边界子词的表征、跨度的宽度特征向量和跨度中所有子词的注意力加权表示,作为初始跨度表征。
3.根据权利要求2所述的方法,其特征在于,所述步骤3具体包括:
步骤3.1,将医学数据集输入实体链接工具的接口,输出文本对应的多条知识,提取每条知识中的位置索引、唯一概念标识符和语义类型,位置索引指向文本中触发该知识的文本片段,该文本片段映射到的统一医学语言系统中的一个标准概念,该概念具有唯一概念标识符,并标记有一个或多个语义类型;
步骤3.2,爬取统一医学语言系统共定义的全部语义类型和语义关系;
步骤3.3,以概念和语义类型作为节点,语义关系为边,为每条医学文本构建外部知识图。
4.根据权利要求3所述的方法,其特征在于,所述步骤4具体包括:
步骤4.1,爬取统一医学语言系统中概念、语义类型及语义关系的定义描述文本,预处理为规范的长度;
步骤4.2,将定义描述文本输入大规模医学预训练语言模型,得到文本外部知识图中概念节点、语义类型节点及语义关系边的初始表征;
步骤4.3,使用三层的关系图卷积神经网络迭代更新文本外部知识图,输出最后一层隐藏层的结果,得到融合了邻居概念和语义关系信息的节点表达。
5.根据权利要求4所述的方法,其特征在于,所述步骤5具体包括:
步骤5.1,根据文本外部知识图中概念节点的位置索引和跨度的边界词索引来对齐跨度和文本外部知识图中的概念节点,并将对齐后的概念节点作为该跨度的候选知识;
步骤5.2,将跨度的初始表征通过一个前馈网络映射为一个新的长度不变的向量,记为隐藏跨度表征,代表输入文本的本地上下文语义信息;
步骤5.3,拼接跨度的初始表征和隐藏跨度表征,拼接结果经过一个前馈网络映射为一个权重分数,代表输入文本上下文语义信息对跨度的重要程度;
步骤5.4,拼接跨度的初始表征和其在文本外部知识图中对应的一个候选节点的表征,拼接结果经过一个前馈网络映射为一个权重分数,代表该候选知识对跨度的重要程度;
步骤5.5,重复步骤5.4,得到该跨度所有候选知识的权重分数;
步骤5.6,标准化步骤5.3至步骤5.5得到的权重分数;
步骤5.7,根据标准化的权重分数,加权融合隐藏跨度表征和所有候选节点的表征,得到知识感知的跨度表征。
6.根据权利要求5所述的方法,其特征在于,所述实体分类层为线性分类层,以跨度表征为输入,映射为固定长度并采用softmax函数激活,输出预测实体类型的概率分布,预测概率最大的实体类型作为实体预测结果。
7.根据权利要求6所述的方法,其特征在于,所述关系分类层为线性分类层,以实体对表征为输入,映射为固定长度并采用softmax函数激活,输出预测关系类型的概率分布,预测概率最大的关系类型作为关系预测结果。
8.根据权利要求7所述的方法,其特征在于,所述根据实体表征得到实体对表征的步骤,包括:
根据实体对中两个实体的主宾关系,拼接主语跨度表征、宾语跨度表征和主宾跨度表征对应位置元素相乘后的向量,拼接结果作为实体对表征。
9.根据权利要求8所述的方法,其特征在于,所述步骤7具体包括:
步骤7.1,根据交叉熵损失函数和第一实体关系预测结果计算不使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.2,根据交叉熵损失函数和第二实体关系预测结果计算使用外部知识时的实体分类损失和关系分类损失/>;
步骤7.3,计算整体损失函数并为使用外部知识后的损失分配更大的权重系数,其中,整体损失函数的表达式为/>;
步骤7.4,采用AdamW优化器和Dropout策略训练模型参数,优化模型参数,得到并保存训练好的实体关系抽取模型。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述权利要求1-9中任一项所述的用于医学教学库的知识增强实体关系联合抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311404157.6A CN117131198B (zh) | 2023-10-27 | 2023-10-27 | 用于医学教学库的知识增强实体关系联合抽取方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311404157.6A CN117131198B (zh) | 2023-10-27 | 2023-10-27 | 用于医学教学库的知识增强实体关系联合抽取方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131198A true CN117131198A (zh) | 2023-11-28 |
CN117131198B CN117131198B (zh) | 2024-01-16 |
Family
ID=88853101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311404157.6A Active CN117131198B (zh) | 2023-10-27 | 2023-10-27 | 用于医学教学库的知识增强实体关系联合抽取方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131198B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540734A (zh) * | 2024-01-10 | 2024-02-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132288A1 (en) * | 2015-11-06 | 2017-05-11 | International Business Machines Corporation | Extracting and Denoising Concept Mentions Using Distributed Representations of Concepts |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN112214610A (zh) * | 2020-09-25 | 2021-01-12 | 中国人民解放军国防科技大学 | 一种基于跨度和知识增强的实体关系联合抽取方法 |
CN113806514A (zh) * | 2021-09-18 | 2021-12-17 | 上海交通大学 | 基于Transformer模型的实体关系抽取方法和系统 |
US20220129770A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Implementing relation linking for knowledge bases |
CN114911879A (zh) * | 2022-07-19 | 2022-08-16 | 南京航天数智科技有限公司 | 一种基于图注意力网络的刑事案件知识图谱关系推理方法 |
CN116304020A (zh) * | 2023-01-30 | 2023-06-23 | 上海工程技术大学 | 一种基于义原分析和跨度特征的工业文本实体抽取方法 |
US20230316003A1 (en) * | 2022-03-31 | 2023-10-05 | Smart Information Flow Technologies, LLC | Natural Language Processing for Identifying Bias in a Span of Text |
CN116861894A (zh) * | 2023-03-17 | 2023-10-10 | 国网冀北电力有限公司 | 一种基于半监督学习的电网领域实体关系抽取 |
-
2023
- 2023-10-27 CN CN202311404157.6A patent/CN117131198B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132288A1 (en) * | 2015-11-06 | 2017-05-11 | International Business Machines Corporation | Extracting and Denoising Concept Mentions Using Distributed Representations of Concepts |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN112214610A (zh) * | 2020-09-25 | 2021-01-12 | 中国人民解放军国防科技大学 | 一种基于跨度和知识增强的实体关系联合抽取方法 |
US20220129770A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Implementing relation linking for knowledge bases |
CN113806514A (zh) * | 2021-09-18 | 2021-12-17 | 上海交通大学 | 基于Transformer模型的实体关系抽取方法和系统 |
US20230316003A1 (en) * | 2022-03-31 | 2023-10-05 | Smart Information Flow Technologies, LLC | Natural Language Processing for Identifying Bias in a Span of Text |
CN114911879A (zh) * | 2022-07-19 | 2022-08-16 | 南京航天数智科技有限公司 | 一种基于图注意力网络的刑事案件知识图谱关系推理方法 |
CN116304020A (zh) * | 2023-01-30 | 2023-06-23 | 上海工程技术大学 | 一种基于义原分析和跨度特征的工业文本实体抽取方法 |
CN116861894A (zh) * | 2023-03-17 | 2023-10-10 | 国网冀北电力有限公司 | 一种基于半监督学习的电网领域实体关系抽取 |
Non-Patent Citations (1)
Title |
---|
王苑;徐德智;陈建二;: "复杂中文文本的实体关系抽取研究", 计算机科学, no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540734A (zh) * | 2024-01-10 | 2024-02-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
CN117540734B (zh) * | 2024-01-10 | 2024-04-09 | 中南大学 | 一种中文医学实体标准化方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117131198B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11327978B2 (en) | Content authoring | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
US11379548B2 (en) | Analyzing concepts over time | |
Tsai et al. | Multimodal routing: Improving local and global interpretability of multimodal language analysis | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US10740678B2 (en) | Concept hierarchies | |
US11017301B2 (en) | Obtaining and using a distributed representation of concepts as vectors | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
US20170161619A1 (en) | Concept-Based Navigation | |
Yang et al. | A survey of information extraction based on deep learning | |
US20170262783A1 (en) | Team Formation | |
CN117131198B (zh) | 用于医学教学库的知识增强实体关系联合抽取方法及设备 | |
CN112528034A (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN115618045A (zh) | 一种视觉问答方法、装置及存储介质 | |
Dai et al. | AD-AutoGPT: An Autonomous GPT for Alzheimer's Disease Infodemiology | |
Wang et al. | SCANET: Improving multimodal representation and fusion with sparse‐and cross‐attention for multimodal sentiment analysis | |
Manzoor et al. | Multimodality representation learning: A survey on evolution, pretraining and its applications | |
CN117349501A (zh) | 基于图神经网络的双过滤证据感知虚假新闻检测方法 | |
Shruthi et al. | A prior case study of natural language processing on different domain | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116956869A (zh) | 文本标准化方法、装置、电子设备及存储介质 | |
CN114942977A (zh) | 基于支持句预测的多任务文档级关系抽取方法及装置 | |
Gomes Jr et al. | Framework for knowledge discovery in educational video repositories | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
Shetty et al. | Semantic Context and Attention-driven Framework for Predicting Visual Description Utilizing a Deep Neural Network and Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |