CN116501830B - 一种生物医学文本的重叠关系联合抽取方法及相关设备 - Google Patents
一种生物医学文本的重叠关系联合抽取方法及相关设备 Download PDFInfo
- Publication number
- CN116501830B CN116501830B CN202310782735.3A CN202310782735A CN116501830B CN 116501830 B CN116501830 B CN 116501830B CN 202310782735 A CN202310782735 A CN 202310782735A CN 116501830 B CN116501830 B CN 116501830B
- Authority
- CN
- China
- Prior art keywords
- module
- text
- discriminator
- relation
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 238
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims description 181
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 13
- LOUPRKONTZGTKE-WZBLMQSHSA-N Quinine Chemical compound C([C@H]([C@H](C1)C=C)C2)C[N@@]1[C@@H]2[C@H](O)C1=CC=NC2=CC=C(OC)C=C21 LOUPRKONTZGTKE-WZBLMQSHSA-N 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 230000008406 drug-drug interaction Effects 0.000 description 8
- 101000896586 Homo sapiens Cytochrome P450 2D6 Proteins 0.000 description 7
- 101000896576 Homo sapiens Putative cytochrome P450 2D7 Proteins 0.000 description 7
- 102100021702 Putative cytochrome P450 2D7 Human genes 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 241000157855 Cinchona Species 0.000 description 5
- 235000001258 Cinchona calisaya Nutrition 0.000 description 5
- LOUPRKONTZGTKE-UHFFFAOYSA-N cinchonine Natural products C1C(C(C2)C=C)CCN2C1C(O)C1=CC=NC2=CC=C(OC)C=C21 LOUPRKONTZGTKE-UHFFFAOYSA-N 0.000 description 5
- 229960000948 quinine Drugs 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003112 inhibitor Substances 0.000 description 3
- RTHCYVBBDHJXIQ-MRXNPFEDSA-N (R)-fluoxetine Chemical compound O([C@H](CCNC)C=1C=CC=CC=1)C1=CC=C(C(F)(F)F)C=C1 RTHCYVBBDHJXIQ-MRXNPFEDSA-N 0.000 description 2
- 101100061275 Caenorhabditis elegans cpr-4 gene Proteins 0.000 description 2
- 102100036876 Cyclin-K Human genes 0.000 description 2
- 101000713127 Homo sapiens Cyclin-K Proteins 0.000 description 2
- 101000853344 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) 60S ribosomal protein L5 Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 229960002464 fluoxetine Drugs 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种生物医学文本的重叠关系联合抽取方法及相关设备,包括:通过获取待抽取的生物医学文本数据,构建有融合模块、主体抽取模块以及客体抽取模块的重叠关系三元组联合抽取框架,将待抽取的生物医学文本数据输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;与现有技术相比,本发明通过融合模块将待抽取的生物医学文本数据中的每个文本与多个关系类型进行融合;抽取主体结束位置时引入了主体开始位置的信息,帮助抽取主体;同时在进行客体提取时引入了客体开始位置的信息和客体相对于主体的相对距离信息,帮助抽取客体;提高了重叠关系三元组抽取的准确性。
Description
技术领域
本发明涉及生物医学文本信息处理技术领域,特别涉及一种生物医学文本的重叠关系联合抽取方法及相关设备。
背景技术
随着互联网时代的到来,万维网上的信息资源大量涌现,以及近年来新兴的大规模网络集群技术的出现,让海量文本中知识的挖掘成为可能。如何利用日益成熟的科学技术从大规模非结构化文本中抽取实用的信息成为近几年来的一项重要科学问题。通过实体和关系抽取获得的三元组,对于生物医学数据挖掘和知识发现研究的展开有着非常重要的意义和应用价值。例如,识别并抽取蛋白质之间的相互作用关系可以构建蛋白质复杂网络,以此进行复合物发现工作。提取药物和药物以及药物和疾病之间的相互作用关系可以开发药物-疾病知识图谱,并由此进行老药新用的研究;药物之间的相互作用关系可以发现药物之间的不良反应,可应用于指导病人科学服药的在线诊疗系统。因此,以命名实体识别和关系抽取为基础任务在生物医学领域知识图谱构建、药物重定位、智能医疗等研究中具有非常重要的意义和作用。很多新兴的实体识别和关系抽取的方法已经陆续地应用到生物医学领域中以解决从非结构化文本中得到实体对之间的语义关系,为医疗知识图谱构建、个性化推荐、临床辅助决策等应用提供支持。
由于生物医学领域文本句式冗长复杂且蕴含的信息错综复杂,使得生物医学文本信息中往往包含了更为复杂的事实关系,从而导致句子中可能存在重叠关系三元组,这种重叠关系三元组的存在,导致在实体关系抽取中模型抽取三元组的准确率降低,从而导致抽取的三元组可能遗漏实体对之间的关系,不能够从非结构化文本中完全的获取文本信息,造成生物医学知识图谱构建粗粒度化,个性化推荐缺少个性化信息以及临床辅助决策存在误差。所以在生物医学文本的复杂事实关系中解决重叠关系三元组的抽取是目前研究的重点。
发明内容
本发明提供了一种生物医学文本的重叠关系联合抽取方法及相关设备,其目的是为了提高生物医学文本中的重叠关系三元组抽取的准确性。
为了达到上述目的,本发明提供了一种生物医学文本的重叠关系联合抽取方法,包括:
步骤1,获取待抽取的生物医学文本数据,生物医学文本年数据包括多个文本和多个关系类型;
步骤2,构建重叠关系三元组联合抽取框架;
步骤3,针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;
重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块和客体抽取模块,融合模块的输入端为重叠关系三元组联合抽取框架的输入端,融合模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接,主体抽取模块的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接,客体抽取模块的输出端与重叠关系三元组联合抽取框架的输出端连接;
融合模块用于将文本与多个关系类型进行融合,主体抽取模块用于在引入主体之间的相对位置信息下抽取文本中的主体开始位置和主体结束位置,客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取文本中的客体开始位置和客体结束位置。
进一步来说,在步骤3之前包括:
针对生物医学文本数据中的每个文本,设置与每个文本对应的文本标签,每个文本均包括主体、关系类型和客体;
分别对每个文本标签进行处理,得到多个处理后的文本标签,每个处理后的文本标签的格式均为{主体、主体类型、关系、客体、客体类型};
利用关系类型在每个文本的开始位置和每个文本的结束位置进行标记,将除每个文本的开始位置和每个文本的结束位置之外的位置标记为“0”,得到多个标记后的文本;
针对多个标记后的文本中的每个标记后的文本,将处理后的文本标签、标记后的文本以及多个关系类型输入重叠关系三元组联合抽取框架进行训练,得到训练后的重叠关系三元组联合抽取框架;
针对多个文本中的每个文本,将文本与多个关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取。
进一步来说,针对多个文本中的每个文本,将文本与多个关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取,包括:
针对多个文本中的每个文本,将文本以及多个关系类型输入融合模块,通过融合模块将文本与多个关系类型进行融合,得到与每个文本对应的特征向量;
针对与每个文本对应的特征向量,将特征向量输入主体抽取模块,对特征向量进行抽取,得到融合有关系类型的主体开始位置,将文本中主体之间的相对位置信息输入主体抽取模块进行主体抽取,得到融合有关系类型的主体结束位置;
针对与每个文本对应的特征向量,将特征向量输入客体抽取模块进行抽取,得到客体开始位置,将文本中客体之间的相对位置信息、主体与客体的相对位置输入客体抽取模块进行抽取,得到客体结束位置;
将融合有关系类型的主体开始位置、融合有关系类型的主体结束位置、客体开始位置和客体结束位置分别进行解码,得到生物医学文本数据的重叠关系三元组。
进一步来说,融合模块包括:
关系嵌入子模块、Bert编码器、多头注意力子模块和目标提取子模块;
Bert编码器的输出端与多头注意力子模块的输入端连接,关系嵌入子模块的输出端与多头注意力子模块的输入端连接,多头注意力子模块的输出端与目标提取子模块的输入端连接,目标提取子模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接;
针对多个文本中的每个文本,将文本输入Bert编码器中进行编码,得到文本向量,并将文本向量输入多头注意力子模块;
将多个关系类型输入关系嵌入子模块进行初始化,得到多个关系向量,并将多个关系向量均输入多头注意力子模块;
通过多头注意力子模块的将文本向量与多个关系向量进行融合,得到与文本向量对应的关系向量,并将文本向量以及与文本向量对应的关系向量输入目标提取子模块进行特征提取,得到与每个文本对应的特征向量。
进一步来说,主体抽取模块包括:
主体开始位置判别器、第一位置向量嵌入子模块和主体结束位置判别器;
主体开始位置判别器的输入端与目标提取子模块的输出端连接,主体开始位置判别器的输出端与主体结束位置判别器的输入端连接,第一位置向量嵌入子模块的输出端与主体结束位置判别器的输入端连接,主体结束位置判别器的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接;
针对与每个文本对应的特征向量,将特征向量输入主体开始位置判别器中进行位置判别,得到融合有关系类型的主体开始位置,并将主体开始位置输入主体结束位置判别器;
通过第一位置向量嵌入子模块将文本中主体之间的相对位置信息初始化为第一位置向量,并将第一位置向量输入主体结束位置判别器;
在主体结束位置判别器中结合主体开始位置以及第一位置向量进行位置判别,得到融合有关系类型的主体结束位置。
进一步来说,客体抽取模块包括:
客体开始位置判别器、第二位置向量嵌入子模块、第三位置向量嵌入子模块、客体类型判别器和客体结束位置判别器;
客体开始位置判别器的输入端分别与目标提取子模块的输出端、主体结束位置判别器的输出端连接,客体开始位置判别器的输出端与客体类型判别器的输入端、客体结束位置判别器的输入端连接,第二位置向量嵌入子模块的输出端分别与客体结束位置判别器的输入端、客体类型判别器的输入端连接,第三位置向量嵌入子模块的输出端分别与所述客体结束位置判别器的输入端、所述客体类型判别器的输入端连接,客体类型判别器的输出端与客体结束位置判别器的输出端均与重叠关系三元组联合抽取框架的输出端连接;
针对与每个文本对应的特征向量,将特征向量输入客体开始位置判别器进行位置判别,得到客体开始位置,并将客体开始位置输入客体类型判别器和客体结束位置判别器;
通过第二位置向量嵌入子模块将文本中客体之间的相对位置信息初始化为第二位置向量,并将第二位置向量输入客体类型判别器和客体结束位置判别器;
通过第三位置向量嵌入子模块将主体与客体的相对位置初始化为第三位置向量,并将第三位置向量输入客体类型判别器和客体结束位置判别器;
在客体类型判别器和客体结束位置判别器中结合客体开始位置、第二位置向量以及第三位置向量进行位置判别,得到客体结束位置。
本发明还提供了一种生物医学文本的重叠关系联合抽取装置,包括:
获取模块,用于获取待抽取的生物医学文本数据,生物医学文本数据包括多个文本和多个关系类型;
构建模块,用于构建重叠关系三元组联合抽取框架;
抽取模块,用于针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;
重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块以及客体抽取模块,融合模块的输入端为重叠关系三元组联合抽取框架的输入端,融合模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接,主体抽取模块的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接,客体抽取模块的输出端与重叠关系三元组联合抽取框架的输出端连接;
融合模块用于将文本与多个关系类型进行融合,主体抽取模块用于在引入主体之间的相对位置信息下抽取文本中的主体开始位置和主体结束位置,客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取文本中的客体开始位置和客体结束位置。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现生物医学文本的重叠关系联合抽取方法。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现生物医学文本的重叠关系联合抽取方法。
本发明的上述方案有如下的有益效果:
本发明通过获取待抽取的生物医学文本数据,生物医学文本数据包括多个文本和多个关系类型;构建有基于多头注意力机制的融合模块、主体抽取模块以及客体抽取模块的重叠关系三元组联合抽取框架,针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;与现有技术相比,本发明通过融合模块将多个文本中的每个文本与多个关系类型进行融合;通过主体抽取模块抽取每个文本中的主体开始位置后,并在主体结束位置判别时引入主体的开始位置信息来得到主体结束位置,从而让模型学习到文本的主体内部之间的相互关联信息,帮助抽取主体;通过客体抽取模块抽取文本中客体开始位置后,除了需要引入客体之间的相对位置信息,还引入了主体与客体的相对位置信息,从而学习到客体和主体之间的信息,帮助抽取客体,提高了重叠关系三元组抽取的准确性。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例中重叠关系三元组联合抽取框架的结构示意图;
图3为本发明实施例中主体抽取模块的结构示意图;
图4为本发明实施例中客体抽取模块的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种生物医学文本的重叠关系联合抽取方法及相关设备。
如图1所示,本发明的实施例提供了一种生物医学文本的重叠关系联合抽取方法及相关设备生物医学文本的重叠关系联合抽取方法,包括:
步骤1,获取待抽取的生物医学文本数据,生物医学文本数据包括多个文本和多个关系类型;
步骤2,构建重叠关系三元组联合抽取框架;
步骤3,针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;
由于生物医学文本数据中的每个文本可能存在一个主体对应一种关系类型、一个客体,还可能存在一个主体对应一种关系类型、多个客体,也可能存在一个主体对应多种关系类型、一个客体或一个主体对应多种关系类型、多个客体的情况,因此认为一个主体对应一种关系类型、多个客体的情况与一个主体对应多种关系类型、一个客体的情况以及一个主体对应多种关系类型、多个客体为重叠关系;然后对重叠关系进行抽取,得到重叠关系三元组;以“The reaction was inhibited by the specific CYP2D inhibitors quinineand fluoxetine”作为生物医学文本数据,然后对该生物医学文本数据进行重叠关系抽取,得到重叠关系三元组为[主体quinine,关系类型CPR4,客体CYP2D]和[主体fluoxetine,关系类型CPR4,客体CYP2D]。
如图2所示,重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块和客体抽取模块,融合模块的输入端为重叠关系三元组联合抽取框架的输入端,融合模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接,主体抽取模块的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接,客体抽取模块的输出端与重叠关系三元组联合抽取框架的输出端连接;
融合模块用于将文本与多个关系类型进行融合,主体抽取模块用于在引入主体之间的相对位置信息下抽取文本中的主体开始位置和主体结束位置,客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取文本中的客体开始位置和客体结束位置。
具体来说,在步骤3之前包括:
针对生物医学文本数据中的每个文本,设置与文本对应的文本标签,每个文本均包括主体、关系类型和客体;
以文本“The reaction was inhibited by the specific CYP2D inhibitorsquinine and fluoxetine.”为例,对每个文本标签进行处理,得到多个处理后的文本标签,每个处理后的文本标签的格式均为{主体、主体类型、关系类型、客体、客体类型},即[‘quinine’/‘CHEMICAL’/‘CPR4’/‘CYP2D’/‘GENE’],[‘fluoxetine’/‘CHEMICAL’/‘CPR4’/‘CYP2D’/‘GENE’];
首先对文本“The reaction was inhibited by the specific CYP2Dinhibitors quinine and fluoxetine.”进行切片,得到的切片结果为[‘T’、‘##he’、‘reaction’、‘was’、‘inhibited’、‘by’、‘the’、‘specific’、‘C、‘##Y’、‘##P’、‘##2’、‘##D’、‘inhibitors’、‘quin’、‘##ine’、‘and’、‘fluoxetine’、‘.’];
利用关系类型对切片结果进行标记,得到0、0、0、0、0、0、0、0、0、2、0、0、0、2、0、2、2、0、2、0,将除每个文本的开始位置和每个文本的结束位置之外的位置标记为“0”,得到多个标记后的文本;
针对多个标记后的文本中的每个标记后的文本,将处理后的文本标签、标记后的文本以及多个关系类型输入重叠关系三元组联合抽取框架进行训练,得到训练后的重叠关系三元组联合抽取框架;
针对多个文本中的每个文本,将文本与多个关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取。
具体来说,针对多个文本中的每个文本,将文本与多个关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取,包括:
针对多个文本中的每个文本,将文本以及多个关系类型输入融合模块,通过融合模块将文本与多个关系类型进行融合,得到与每个文本对应的特征向量;
针对与每个文本对应的特征向量,将特征向量输入主体抽取模块,对特征向量进行抽取,得到融合有关系类型的主体开始位置,将文本中主体之间的相对位置信息输入主体抽取模块进行主体抽取,得到融合有关系类型的主体结束位置;
针对与每个文本对应的特征向量,将特征向量输入客体抽取模块进行抽取,得到客体开始位置,将文本中客体之间的相对位置信息、主体与客体的相对位置输入客体抽取模块进行抽取,得到客体结束位置;
将融合有关系类型的主体开始位置、融合有关系类型的主体结束位置、客体开始位置和客体结束位置分别进行解码,得到生物医学文本数据的重叠关系三元组。
具体来说,融合模块包括:
关系嵌入子模块、Bert编码器、多头注意力子模块和目标提取子模块;
Bert编码器的输出端与多头注意力子模块的输入端连接,关系嵌入子模块的输出端与多头注意力子模块的输入端连接,多头注意力子模块的输出端与目标提取子模块的输入端连接,目标提取子模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接;
针对多个文本中的每个文本,将文本输入Bert编码器中进行编码,得到文本向量,并将文本向量输入多头注意力子模块;
将多个关系类型输入关系嵌入子模块进行初始化,得到多个关系向量,并将多个关系向量均输入多头注意力子模块;
通过多头注意力子模块的将文本向量与多个关系向量进行融合,得到融合有关系向量中的关系信息的文本向量,并将文本向量以及融合有关系向量中的关系信息的文本向量输入目标提取子模块进行特征提取,得到与每个文本对应的特征向量。
在本发明实施例中,将一个文本描述为X={x1,x2,…,xn},将文本三元组描述为{π=(e1,r,e2),e1∈Sub,e2∈Obj,r∈R},其中Sub,Obj分别对应主体和客体,R是预定义的关系类型集合,n表示句子长度,xi是第i个单词(i≤n),联合抽取的目标是从文本X中抽取所有的三元组π。
将文本X进行切片,得到切片结果T,并将切片结果T输入Bert编码器得到文本向量H,计算公式如下:
其中,T={t1,t2,…,ti},ti表示切片结果中第i个,、/>表示可训练的参数,表示Bert编码器,l表示当前层的层数(1≤l≤L),L表示Bert编码器的总层数,Bert编码器包括多头注意力层(Multi-head Attention Layers),完全连接层(Fully ConnectedLayers),归一化层(Normalization Layers)等。此外,H表示Bert编码器输出的文本向量,A表示一个矩阵,无具体物理含义,N表示文本的长度,d表示关系类型的数量。
本发明实施例中文本中的每个单词在不同的关系类型中扮演着不同的角色,因此利用多头注意力子模块将文本向量和关系向量进行融合计算,得到与每个关系向量相对应的权重值;
设定权重阈值,将权重值大于权重阈值的关系向量作为与文本相对应的关系向量,即将权重值大于权重阈值的关系类型作为与文本相对应的关系类型,最终得到主体-关系融合的特征向量,为主体的抽取做准备,计算公式如下:
其中,表示多头注意力子模块中的给定查询,/>表示多头注意力子模块中的键,表示多头注意力子模块中的值,/>、/>、/>均表示可学习的参数,/>表示与关系类型对应的关系向量,/>表示多头注意力子模块中的第/>个头,/>表示K的维度,/>表示经过多头注意力机制融合关系信息的特征向量,/>表示拼接操作。
具体来说,如图3所示,主体抽取模块包括:
主体开始位置判别器、第一位置向量嵌入子模块和主体结束位置判别器;
主体开始位置判别器的输入端与目标提取子模块的输出端连接,主体开始位置判别器的输出端与主体结束位置判别器的输入端连接,第一位置向量嵌入子模块的输出端与主体结束位置判别器的输入端连接,主体结束位置判别器的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接;
针对与每个文本对应的特征向量,将特征向量输入主体开始位置判别器中进行位置判别,得到融合有关系类型的主体开始位置,并将主体开始位置输入主体结束位置判别器;
通过第一位置向量嵌入子模块将文本中主体之间的相对位置关系初始化为第一位置向量,并将第一位置向量输入主体结束位置判别器;
在主体结束位置判别器中结合主体开始位置以及第一位置向量进行位置判别,得到融合有关系类型的主体结束位置。
由于生物医学文本数据中存在大量长文本,为了有利于文本边界的判定,因此本发明实施例在对文本中的主体进行抽取时引入了文本中主体之间的相对位置关系,因为主体的抽取是先获得主体开始位置,再获取主体结束位置,因此我们将主体开始位置信息引入到主体表示学习中。
首先,将特征向量输入主体开始位置判别器中进行位置判别,得到融合有关系类型的主体开始位置Lsub_start、Isub_start为:
其中,表示完全连接层,/>表示可学习的参数,/>表示关系类型的数量,/>表示主体开始位置的隐藏层表示,用于预测主体开始位置/>。
将预测融合关系类型的主体开始位置进行解码,得到每个单词的相对位置distance,即主体的开始位置信息,将开始位置信息输入主体结束位置判别器。
通过第一位置位置向量嵌入子模块对文本中主体之间的相对位置关系进行初始化,得到第一位置向量Pos_Sub,并将第一位置向量Pos_Sub输入主体结束位置判别器;
在主体结束位置判别器中结合主体开始位置以及第一位置向量Pos_Sub进行位置判别,得到融合有关系类型的主体结束位置、/>,公式如下:
其中,表示输入主体结束位置判别器的文本向量,/>表示拼接操作,/>表示主体结束位置的隐藏层,/>表示预测的主体结束位置,将argmax函数应用于、/>的每一行,得到主体在文本中的开始位置/>和结束位置/>。
具体来说,如图4所示,客体抽取模块包括:
客体开始位置判别器、第二位置向量嵌入子模块、第三位置向量嵌入子模块、客体类型判别器和客体结束位置判别器;
客体开始位置判别器的输入端分别与目标提取子模块的输出端、主体结束位置判别器的输出端连接,客体开始位置判别器的输出端与客体类型判别器的输入端、客体结束位置判别器的输入端连接,第二位置向量嵌入子模块的输出端分别与客体结束位置判别器的输入端、客体类型判别器的输入端连接,第三位置向量嵌入子模块的输出端分别与客体类型判别器的输入端、客体结束位置判别器的输入端连接,客体类型判别器的输出端与客体结束位置判别器的输出端均与重叠关系三元组联合抽取框架的输出端连接;
针对与每个文本对应的特征向量中的每个特征向量,将特征向量输入客体开始位置判别器进行位置判别,得到客体开始位置,并将客体开始位置输入客体类型判别器和客体结束位置判别器;
通过第二位置向量嵌入子模块将文本中客体之间的相对位置关系初始化为第二位置向量,并将第二位置向量输入客体类型判别器和客体结束位置判别器;
通过第三位置向量嵌入子模块将主体与客体的相对位置初始化为第三位置向量,并将第三位置向量输入客体类型判别器和客体结束位置判别器;
在客体类型判别器和客体结束位置判别器中结合客体开始位置、第二位置向量以及第三位置向量进行位置判别,得到客体结束位置。
由于客体的抽取过程与主体的抽取过程相似,但是因为在主体抽取后进行客体的抽取,所以客体的抽取还需要加入相对于主体的第三位置向量,同时综合融合模块和主体抽取模块学习到的参数,在本发明实施例中采用多任务的思想,为了使得重叠关系三元组联合抽取框架学习到更多的知识,因此在客体抽取的过程中还添加了客体类型判别的辅助任务,计算过程如下:
初始化第二位置向量、第三位置向量/>;
其中,表示根据主体获得开始位置/>和结束位置/>得到的主体边界位置向量,/>表示主体相对于客体的第三位置向量,/>,表示完全连接层,/>表示可学习的参数,/>表示关系类型的数量,表示客体开始位置的隐藏层,用于预测客体开始位置/>;
将预测的客体开始位置进行解码得到客体中每个单词相对位置distance,即客体的开始位置信息,将客体的开始位置信息融合到客体结束位置判别器和客体类型判别器;
通过第二位置位置向量嵌入子模块对客体结束位置距离客体开始位置的相对距离进行初始化,得到第二位置向量,通过第三位置向量嵌入子模块对客体与主体的相对距离进行初始化,得到第三位置向量/>,并将第二位置向量/>和第三位置向量/>输入客体结束位置判别器和客体类型判别器;
在客体结束位置判别器中结合客体开始位置、第二位置向量以及第三位置向量进行位置判别,得到客体结束位置、/>,公式如下:
其中,表示输入客体结束位置判别器中的文本向量,/>表示客体结束位置的隐藏层,/>表示预测的客体结束位置,将argmax函数应用于/>、/>的每一行,得到客体开始位置/>和客体结束位置/>。
本发明实施例中所涉及的损失函数如下:
主体抽取模块的损失函数为:
客体抽取模块的损失函数为:
客体类型判别的损失函数为:
重叠关系三元组联合抽取框架的损失函数为:
其中,CE为交叉熵损失函数,L表示真实标签,Y表示预测标签。表示真实主体subject的开始位置标签,/>表示预测主体subject的开始位置标签,/>表示真实主体subject的结束位置标签,/>表示预测主体subject的结束位置标签,表示真实客体object的开始位置标签,/>表示预测客体object的开始位置标签,/>表示真实客体object的结束位置标签,/>表示真实客体object的结束位置标签。
本发明实施例在Bert编码器使用dropout进行正则化,dropout比率设置为0.1。对于训练过程,批次大小batch size设置为8,学习率设置为1e-5,epoch设置为300。对于损失函数loss主体抽取模块、客体抽取模块、客体类型判别所占的比例分别是0.35,0.55,0.1。
由于与一般的领域方法不同,生物医学三元组提取需要抽取文本跨度和相应的文本类型,因此,只要当关系和文本都正确时,才认为三元组是正确的,本发明实施例采用T-TEST来计算统计显著性检验,采用精密度(P)、召回率(R)和微观F1分数(F1)作为评价指标,公式如下:
其中,TP、FP和FN分别表示阳性、假阳性和假阴性。
接下来将本发明实施例所提供的方法与现有的几种基线方法进行比较,比较结果如下表1所示:
表1
上表1给出了不同联合方法对化学-蛋白质相互作用(CPI)和药物-药物相互作用(DDI)提取的实验结果。试验结果表明,基于图像标记的实体关系抽取在化学-蛋白质相互作用(CPI)和药物-药物相互作用(DDI)上的F1得分分别为0.379和0.579,CasRel在化学-蛋白质相互作用(CPI)和药物-药物相互作用(DDI)上的F1得分分别为0.541和0.658。相应地,基于标注的实体关系抽取的F1得分分别为0.280和0.484,基于BERT的罗方法的F1得分分别为0.572和0.742,基于机器阅读理解的实体关系抽取的F1得分分别为0.660和0.757。
本发明实施例所提供的重叠关系三元组联合抽取框架在化学-蛋白质相互作用(CPI)提取中,召回率和F1分数方面表现最好,比基于机器阅读理解的实体关系抽取模型来说F1提高了2.6%。在药物-药物相互作用(DDI)提取中,准确率和F1分数方面表现最好,比基于机器阅读理解的实体关系抽取模型来说F1提高了0.4%。这些结果显示本发明实施例所提供的重叠关系三元组联合抽取框架可以有效地提取重叠三元组。
本发明实施例通过获取待抽取的生物医学文本数据,生物医学文本数据包括多个文本和多个关系类型;构建有基于多头注意力机制的融合模块、主体抽取模块以及客体抽取模块的重叠关系三元组联合抽取框架,针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;与现有技术相比,本发明通过融合模块将多个文本中的每个文本与多个关系类型进行融合;通过主体抽取模块抽取每个文本中的主体开始位置后,并在主体结束位置判别时引入主体的开始位置信息来得到主体结束位置,从而让模型学习到文本的主体内部之间的相互关联信息,帮助抽取主体;通过客体抽取模块抽取文本中客体开始位置后,除了引入客体之间的相对位置信息以外,还引入了主体与客体的相对位置信息,从而学习到客体和主体之间的信息,帮助抽取客体,提高了重叠关系三元组抽取的准确性。
本发明实施例还提供了一种生物医学文本的重叠关系联合抽取装置,包括:
获取模块,用于获取待抽取的生物医学文本数据,生物医学文本数据包括多个文本和多个关系类型;
构建模块,用于构建重叠关系三元组联合抽取框架;
抽取模块,用于针对多个文本中的每个文本,将文本与多个关系类型输入重叠关系三元组联合抽取框架进行抽取,得到生物医学文本数据的重叠关系三元组;
重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块和客体抽取模块,融合模块的输入端为重叠关系三元组联合抽取框架的输入端,融合模块的输出端分别与主体抽取模块的输入端、客体抽取模块的输入端连接,主体抽取模块的输出端分别与客体抽取模块的输入端、重叠关系三元组联合抽取框架的输出端连接,客体抽取模块的输出端与重叠关系三元组联合抽取框架的输出端连接;
融合模块用于将文本与多个关系类型进行融合,主体抽取模块用于在引入主体之间的相对位置信息下抽取文本中的主体开始位置和主体结束位置,客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取文本中的客体开始位置和客体结束位置。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现生物医学文本的重叠关系联合抽取方法。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到构建装置/终端设备的任何文本或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现生物医学文本的重叠关系联合抽取方法。
需要说明的是,终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(UMPC,Ultra-mobile Personal Computer)、上网本、个人数字助理(PDA,PersonalDigital Assistant)等终端设备上,例如,终端设备可以是WLAN中的站点(ST,STAION),可以是蜂窝电话、无绳电话、会话启动协议(SIP,Session Initiation Protocol)电话、无线本地环路(WLL,Wireless Local Loop)站、个人数字处理(PDA,Personal DigitalAssistant)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备等。本发明实施例实施例对终端设备的具体类型不作任何限制。
所称处理器可以是中央处理单元(CPU,Central Processing Unit),该处理器还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种生物医学文本的重叠关系联合抽取方法,其特征在于,包括:
步骤1,获取待抽取的生物医学文本数据,所述生物医学文本数据包括多个文本和多个关系类型;
步骤2,构建重叠关系三元组联合抽取框架;
步骤3,针对多个所述文本中的每个文本,将所述文本与多个所述关系类型输入所述重叠关系三元组联合抽取框架进行抽取,得到所述生物医学文本数据的重叠关系三元组;
所述重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块以及客体抽取模块,所述融合模块的输入端为重叠关系三元组联合抽取框架的输入端,所述融合模块的输出端分别与所述主体抽取模块的输入端、所述客体抽取模块的输入端连接,所述主体抽取模块的输出端分别与所述客体抽取模块的输入端、所述重叠关系三元组联合抽取框架的输出端连接,所述客体抽取模块的输出端与所述重叠关系三元组联合抽取框架的输出端连接;
所述融合模块用于将所述文本与多个所述关系类型进行融合,包括:
关系嵌入子模块、Bert编码器、多头注意力子模块和目标提取子模块;
所述Bert编码器的输出端与所述多头注意力子模块的输入端连接,所述关系嵌入子模块的输出端与所述多头注意力子模块的输入端连接,所述多头注意力子模块的输出端与所述目标提取子模块的输入端连接,所述目标提取子模块的输出端分别与所述主体抽取模块的输入端、所述客体抽取模块的输入端连接;
针对多个所述文本中的每个文本,将所述文本输入所述Bert编码器中进行编码,得到文本向量,并将所述文本向量输入所述多头注意力子模块;
将多个所述关系类型输入所述关系嵌入子模块进行初始化,得到多个关系向量,并将多个所述关系向量均输入所述多头注意力子模块;
通过所述多头注意力子模块的将所述文本向量与多个所述关系向量进行融合,得到融合有关系向量中的关系信息的文本向量,并将所述文本向量以及得到融合有关系向量中的关系信息的文本向量输入所述目标提取子模块进行特征提取,得到与每个所述文本对应的特征向量;
所述主体抽取模块用于在引入主体之间的相对位置信息下抽取所述文本中的主体开始位置和主体结束位置,包括:
主体开始位置判别器、第一位置向量嵌入子模块和主体结束位置判别器;
所述主体开始位置判别器的输入端与所述目标提取子模块的输出端连接,所述主体开始位置判别器的输出端与所述主体结束位置判别器的输入端连接,所述第一位置向量嵌入子模块的输出端与所述主体结束位置判别器的输入端连接,所述主体结束位置判别器的输出端分别与所述客体抽取模块的输入端、所述重叠关系三元组联合抽取框架的输出端连接;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述主体开始位置判别器中进行位置判别,得到融合有关系类型的主体开始位置,并将所述主体开始位置输入所述主体结束位置判别器;
通过所述第一位置向量嵌入子模块将所述文本中主体之间的相对位置信息初始化为第一位置向量,并将所述第一位置向量输入所述主体结束位置判别器;
在所述主体结束位置判别器中结合所述主体开始位置以及所述第一位置向量进行位置判别,得到融合有关系类型的主体结束位置;
所述客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取所述文本中的客体开始位置和客体结束位置,包括:
客体开始位置判别器、第二位置向量嵌入子模块、第三位置向量嵌入子模块、客体类型判别器和客体结束位置判别器;
所述客体开始位置判别器的输入端分别与所述目标提取子模块的输出端、所述主体结束位置判别器的输出端连接,所述客体开始位置判别器的输出端与所述客体类型判别器的输入端、所述客体结束位置判别器的输入端连接,所述第二位置向量嵌入子模块的输出端分别与所述客体结束位置判别器的输入端、所述客体类型判别器的输入端连接,所述第三位置向量嵌入子模块的输出端分别与所述客体结束位置判别器的输入端、所述客体类型判别器的输入端连接,所述客体类型判别器的输出端与所述客体结束位置判别器的输出端均与所述重叠关系三元组联合抽取框架的输出端连接;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述客体开始位置判别器进行位置判别,得到客体开始位置,并将所述客体开始位置输入所述客体类型判别器和所述客体结束位置判别器;
通过所述第二位置向量嵌入子模块将所述文本中客体之间的相对位置信息初始化为第二位置向量,并将所述第二位置向量输入所述客体类型判别器和所述客体结束位置判别器;
通过所述第三位置向量嵌入子模块将所述主体与客体的相对位置初始化为第三位置向量,并将所述第三位置向量输入所述客体类型判别器和所述客体结束位置判别器;
在所述客体类型判别器和所述客体结束位置判别器中结合所述客体开始位置、所述第二位置向量以及所述第三位置向量进行位置判别,得到客体结束位置。
2.根据权利要求1所述的生物医学文本的重叠关系联合抽取方法,其特征在于,在所述步骤3之前,还包括:
针对所述生物医学文本数据中的每个所述文本,设置与所述文本对应的文本标签,每个所述文本均包括主体、关系类型和客体;
分别对每个所述文本标签进行处理,得到多个处理后的文本标签,每个所述处理后的文本标签的格式均为{主体、主体类型、关系类型、客体、客体类型};
利用所述关系类型在每个所述文本的开始位置和每个所述文本的结束位置进行标记,将除每个所述文本的开始位置和每个所述文本的结束位置之外的位置标记为“0”,得到多个标记后的文本;
针对多个所述标记后的文本中的每个标记后的文本,将所述处理后的文本标签、所述标记后的文本以及多个所述关系类型输入所述重叠关系三元组联合抽取框架,对所述重叠关系三元组联合抽取框架进行训练,得到训练后的重叠关系三元组联合抽取框架;
针对多个所述文本中的每个文本,将所述文本与多个所述关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取。
3.根据权利要求2所述的生物医学文本的重叠关系联合抽取方法,其特征在于,针对多个所述文本中的每个文本,将所述文本与多个所述关系类型输入训练后的重叠关系三元组联合抽取框架进行抽取,包括:
针对多个所述文本中的每个文本,将所述文本以及多个所述关系类型输入所述融合模块,通过所述融合模块将所述文本与多个所述关系类型进行融合,得到与每个所述文本对应的特征向量;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述主体抽取模块,对所述特征向量进行抽取,得到融合有关系类型的主体开始位置,将所述文本中主体之间的相对位置信息输入所述主体抽取模块进行主体抽取,得到融合有关系类型的主体结束位置;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述客体抽取模块进行抽取,得到客体开始位置,将所述文本中客体之间的相对位置信息、所述主体与客体的相对位置输入所述客体抽取模块进行抽取,得到客体结束位置;
将所述融合有关系类型的主体开始位置、所述融合有关系类型的主体结束位置、所述客体开始位置和所述客体结束位置分别进行解码,得到所述生物医学文本数据的重叠关系三元组。
4.一种生物医学文本的重叠关系联合抽取装置,其特征在于,包括:
获取模块,用于获取待抽取的生物医学文本数据,所述生物医学文本数据包括多个文本和多个关系类型;
构建模块,用于构建重叠关系三元组联合抽取框架;
抽取模块,用于针对多个所述文本中的每个文本,将所述文本与多个所述关系类型输入所述重叠关系三元组联合抽取框架进行抽取,得到所述生物医学文本数据的重叠关系三元组;
所述重叠关系三元组联合抽取框架包括基于多头注意力机制的融合模块、主体抽取模块以及客体抽取模块,所述融合模块的输入端为重叠关系三元组联合抽取框架的输入端,所述融合模块的输出端分别与所述主体抽取模块的输入端、所述客体抽取模块的输入端连接,所述主体抽取模块的输出端分别与所述客体抽取模块的输入端、所述重叠关系三元组联合抽取框架的输出端连接,所述客体抽取模块的输出端与所述重叠关系三元组联合抽取框架的输出端连接;
所述融合模块用于将所述文本与多个所述关系类型进行融合,包括:
关系嵌入子模块、Bert编码器、多头注意力子模块和目标提取子模块;
所述Bert编码器的输出端与所述多头注意力子模块的输入端连接,所述关系嵌入子模块的输出端与所述多头注意力子模块的输入端连接,所述多头注意力子模块的输出端与所述目标提取子模块的输入端连接,所述目标提取子模块的输出端分别与所述主体抽取模块的输入端、所述客体抽取模块的输入端连接;
针对多个所述文本中的每个文本,将所述文本输入所述Bert编码器中进行编码,得到文本向量,并将所述文本向量输入所述多头注意力子模块;
将多个所述关系类型输入所述关系嵌入子模块进行初始化,得到多个关系向量,并将多个所述关系向量均输入所述多头注意力子模块;
通过所述多头注意力子模块的将所述文本向量与多个所述关系向量进行融合,得到融合有关系向量中的关系信息的文本向量,并将所述文本向量以及得到融合有关系向量中的关系信息的文本向量输入所述目标提取子模块进行特征提取,得到与每个所述文本对应的特征向量;
所述主体抽取模块用于在引入主体之间的相对位置信息下抽取所述文本中的主体开始位置和主体结束位置,包括:
主体开始位置判别器、第一位置向量嵌入子模块和主体结束位置判别器;
所述主体开始位置判别器的输入端与所述目标提取子模块的输出端连接,所述主体开始位置判别器的输出端与所述主体结束位置判别器的输入端连接,所述第一位置向量嵌入子模块的输出端与所述主体结束位置判别器的输入端连接,所述主体结束位置判别器的输出端分别与所述客体抽取模块的输入端、所述重叠关系三元组联合抽取框架的输出端连接;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述主体开始位置判别器中进行位置判别,得到融合有关系类型的主体开始位置,并将所述主体开始位置输入所述主体结束位置判别器;
通过所述第一位置向量嵌入子模块将所述文本中主体之间的相对位置信息初始化为第一位置向量,并将所述第一位置向量输入所述主体结束位置判别器;
在所述主体结束位置判别器中结合所述主体开始位置以及所述第一位置向量进行位置判别,得到融合有关系类型的主体结束位置;
所述客体抽取模块用于在引入主体与客体的相对位置信息以及客体之间的相对位置信息下抽取所述文本中的客体开始位置和客体结束位置,包括:
客体开始位置判别器、第二位置向量嵌入子模块、第三位置向量嵌入子模块、客体类型判别器和客体结束位置判别器;
所述客体开始位置判别器的输入端分别与所述目标提取子模块的输出端、所述主体结束位置判别器的输出端连接,所述客体开始位置判别器的输出端与所述客体类型判别器的输入端、所述客体结束位置判别器的输入端连接,所述第二位置向量嵌入子模块的输出端分别与所述客体结束位置判别器的输入端、所述客体类型判别器的输入端连接,所述第三位置向量嵌入子模块的输出端分别与所述客体结束位置判别器的输入端、所述客体类型判别器的输入端连接,所述客体类型判别器的输出端与所述客体结束位置判别器的输出端均与所述重叠关系三元组联合抽取框架的输出端连接;
针对与每个所述文本对应的特征向量,将所述特征向量输入所述客体开始位置判别器进行位置判别,得到客体开始位置,并将所述客体开始位置输入所述客体类型判别器和所述客体结束位置判别器;
通过所述第二位置向量嵌入子模块将所述文本中客体之间的相对位置信息初始化为第二位置向量,并将所述第二位置向量输入所述客体类型判别器和所述客体结束位置判别器;
通过所述第三位置向量嵌入子模块将所述主体与客体的相对位置初始化为第三位置向量,并将所述第三位置向量输入所述客体类型判别器和所述客体结束位置判别器;
在所述客体类型判别器和所述客体结束位置判别器中结合所述客体开始位置、所述第二位置向量以及所述第三位置向量进行位置判别,得到客体结束位置。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的生物医学文本的重叠关系联合抽取方法。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的生物医学文本的重叠关系联合抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782735.3A CN116501830B (zh) | 2023-06-29 | 2023-06-29 | 一种生物医学文本的重叠关系联合抽取方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782735.3A CN116501830B (zh) | 2023-06-29 | 2023-06-29 | 一种生物医学文本的重叠关系联合抽取方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501830A CN116501830A (zh) | 2023-07-28 |
CN116501830B true CN116501830B (zh) | 2023-09-05 |
Family
ID=87327067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310782735.3A Active CN116501830B (zh) | 2023-06-29 | 2023-06-29 | 一种生物医学文本的重叠关系联合抽取方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501830B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015103075A (ja) * | 2013-11-26 | 2015-06-04 | 日本電信電話株式会社 | 境界検出装置、境界検出方法及びコンピュータプログラム |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN113051891A (zh) * | 2021-01-13 | 2021-06-29 | 东南大学 | 一种面向机场应急预案文本的实体与关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
CN115034221A (zh) * | 2022-05-27 | 2022-09-09 | 重庆邮电大学 | 基于BiLSTM结合全局指针的重叠关系抽取系统 |
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428036B (zh) * | 2020-03-23 | 2022-05-27 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
CN113434669A (zh) * | 2021-05-31 | 2021-09-24 | 华东师范大学 | 一种基于序列标记策略的自然语言关系抽取方法 |
-
2023
- 2023-06-29 CN CN202310782735.3A patent/CN116501830B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015103075A (ja) * | 2013-11-26 | 2015-06-04 | 日本電信電話株式会社 | 境界検出装置、境界検出方法及びコンピュータプログラム |
CN111859935A (zh) * | 2020-07-03 | 2020-10-30 | 大连理工大学 | 基于文献的癌症相关生物医学事件数据库构建方法 |
CN113051891A (zh) * | 2021-01-13 | 2021-06-29 | 东南大学 | 一种面向机场应急预案文本的实体与关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
CN115034221A (zh) * | 2022-05-27 | 2022-09-09 | 重庆邮电大学 | 基于BiLSTM结合全局指针的重叠关系抽取系统 |
Non-Patent Citations (1)
Title |
---|
家禽诊疗文本多实体关系联合抽取模型研究;胡滨;《农业机械学报》;正文第268-275页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116501830A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Masked face recognition with latent part detection | |
WO2021151353A1 (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN114334070A (zh) | 一种基于医疗大数据的辅助处方系统 | |
CN112201359B (zh) | 基于人工智能的重症问诊数据识别方法及装置 | |
CN113539409B (zh) | 治疗方案推荐方法、装置、设备及存储介质 | |
CN111259897A (zh) | 知识感知的文本识别方法和系统 | |
CN112015923A (zh) | 一种多模态数据检索方法、系统、终端及存储介质 | |
CN111967261B (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN111353311A (zh) | 一种命名实体识别方法、装置、计算机设备及存储介质 | |
WO2021137563A1 (ko) | 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
Wu et al. | Structured information extraction of pathology reports with attention-based graph convolutional network | |
CN118095267B (zh) | 一种基于向量匹配的语言模型回答溯源方法及系统 | |
CN112307172A (zh) | 一种语义解析设备、方法、终端及存储介质 | |
CN116501830B (zh) | 一种生物医学文本的重叠关系联合抽取方法及相关设备 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN116484220A (zh) | 语义表征模型的训练方法、装置、存储介质及计算机设备 | |
CN113327691B (zh) | 基于语言模型的问询方法、装置、计算机设备及存储介质 | |
CN115563515A (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
CN115687917A (zh) | 样本处理方法以及装置、识别模型训练方法及装置 | |
CN116028634A (zh) | 实体链接的构建方法、装置、电子设备和可读存储介质 | |
CN114068028A (zh) | 医疗问诊数据处理方法及装置、可读存储介质及电子设备 | |
Iqbal et al. | A review of deep learning algorithms for modeling drug interactions | |
CN118538401B (zh) | 基于语言大模型的糖尿病咨询交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |