CN114637852B - 医学文本的实体关系抽取方法、装置、设备及存储介质 - Google Patents
医学文本的实体关系抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114637852B CN114637852B CN202210433927.9A CN202210433927A CN114637852B CN 114637852 B CN114637852 B CN 114637852B CN 202210433927 A CN202210433927 A CN 202210433927A CN 114637852 B CN114637852 B CN 114637852B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- subject
- relation extraction
- medical text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 143
- 230000008447 perception Effects 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 110
- 238000012545 processing Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 208000000668 Chronic Pancreatitis Diseases 0.000 description 2
- 206010033649 Pancreatitis chronic Diseases 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 206010028813 Nausea Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种医学文本的实体关系抽取方法,该方法包括以下步骤:接收待实体关系抽取的医学文本;将医学文本转化为bert格式数据;对bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。应用本发明所提供的医学文本的实体关系抽取方法,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。本发明还公开了一种医学文本的实体关系抽取装置、设备及存储介质,具有相应技术效果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种医学文本的实体关系抽取方法、装置、设备及计算机可读存储介质。
背景技术
实体关系三元组抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别实体并抽取实体之间的语义关系。关系抽取解决了对应目标头尾实体间的关系分类问题,并且也是构建知识图谱重要步骤之一,同时也能为自动问答、机器翻译和搜索引擎提供技术支撑。
随着,近年来深度学习在关系抽取广泛应用,关系抽取在医学领域进一步得到广泛的关注和深入的研究。由于实体和关系定义的专业性,相比起其他领域,传统的医学知识库的构建需要大量的人力、物力以及专家知识等,因此利用现有大量的非结构化文本,自动高效的抽取相应的实体三元组关系就显得十分重要。此外,由于医学文本内容的固有特征,医学领域中的关系抽取也更复杂,医学文本中大量存在的关系重叠问题给实体关系的抽取带来了极大的干扰,易导致实体关系抽取不全面,抽取结果准确性低。
综上所述,如何有效地解决现有的医学文本的实体关系抽取方法,关系重叠问题易导致实体关系抽取不全面,抽取结果准确性低等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种医学文本的实体关系抽取方法,该方法避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性;本发明的另一目的是提供一种医学文本的实体关系抽取装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种医学文本的实体关系抽取方法,包括:
接收待实体关系抽取的医学文本;
将所述医学文本转化为bert格式数据;
对所述bert格式数据进行数值索引转化,得到文本数值索引;
利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
在本发明的一种具体实施方式中,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果,包括:
通过所述主语感知关系提取模型的编码层对所述文本数值索引进行上下文动态编码,得到各序列词向量;
通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量,并将所述主语序列词向量确定为头实体;
通过所述主语感知关系提取模型的预测层对各所述序列词向量进行解码操作,得到除所述主语序列词向量之外各所述序列词向量分别对应的二分类结果;
判断各所述二分类结果中是否存在正类;
若是,则将所述正类对应的序列词向量确定为尾实体;
将所述头实体和所述尾实体确定为所述实体关系抽取结果。
在本发明的一种具体实施方式中,在通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量之后,将所述主语序列词向量确定为头实体之前,还包括:
通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化。
在本发明的一种具体实施方式中,通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化,包括:
通过所述共享向量层中的条件正则化子层对所述主语序列词向量进行语义感知,得到目标语义;
通过所述共享向量层中的特征子层基于预设特征库对所述目标语义进行语义特征强化。
在本发明的一种具体实施方式中,在接收待实体关系抽取的医学文本之后,将所述医学文本转化为bert格式数据之前,还包括:
对所述医学文本进行中文文本语料处理。
在本发明的一种具体实施方式中,在对所述医学文本进行中文文本语料处理之后,将所述医学文本转化为bert格式数据之前,还包括:
获取语料处理后得到的医学文本的文本长度;
判断所述文本长度是否大于预设长度值;
若是,则对语料处理后得到的医学文本进行长文本分割。
在本发明的一种具体实施方式中,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,包括:
利用预训练得到的损失函数最小化的主语感知关系提取模型对所述文本数值索引进行上下文动态编码。
一种医学文本的实体关系抽取装置,包括:
文本接收模块,用于接收待实体关系抽取的医学文本;
格式转化模块,用于将所述医学文本转化为bert格式数据;
索引获得模块,用于对所述bert格式数据进行数值索引转化,得到文本数值索引;
抽取结果获得模块,用于利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
一种医学文本的实体关系抽取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述医学文本的实体关系抽取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述医学文本的实体关系抽取方法的步骤。
本发明所提供的医学文本的实体关系抽取方法,接收待实体关系抽取的医学文本;将医学文本转化为bert格式数据;对bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
由上述技术方案可知,通过将接收到待实体关系抽取的医学文本转化为bert格式数据,对bert格式数据进行数值索引转化,得到文本数值索引。预先训练主语感知关系提取模型,利用主语感知关系提取模型对转化得到的文本数值索引进行上下文动态编码,对编码结果进行实体关系抽取,得到实体关系抽取结果。通过进行文本数值索引进行上下文动态编码,医学文本中各文本词语均存在各自对应的词向量,保证了医学文本中各词向量的有效性,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。
相应的,本发明还提供了与上述医学文本的实体关系抽取方法相对应的医学文本的实体关系抽取装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中医学文本的实体关系抽取方法的一种实施流程图;
图2为本发明实施例中医学文本的实体关系抽取方法的另一种实施流程图;
图3为本发明实施例中一种医学文本的实体关系抽取流程示意图;
图4为本发明实施例中一种医学文本的实体关系抽取装置的结构框图;
图5为本发明实施例中一种医学文本的实体关系抽取设备的结构框图;
图6为本实施例提供的一种医学文本的实体关系抽取设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1为本发明实施例中医学文本的实体关系抽取方法的一种实施流程图,该方法可以包括以下步骤:
S101:接收待实体关系抽取的医学文本。
当需要对某医学文本进行实体关系抽取时,向医学文本实体关系抽取中心发送待实体关系抽取的医学文本。
S102:将医学文本转化为bert格式数据。
在接收到待实体关系抽取的医学文本之后,将医学文本转化为bert格式数据。例如“皮肤鳞状细胞癌@第二–传统外科切除或Mohs手术患者应密切随访,如果肿瘤反应不佳或者复发则应被切除。”对应的bert格式数据为“[101,4649,5502,7851,4307,5301,5528,4617,137,5018,753,100,837,5320,1912,4906,1147,7370,2772,11303,9551,2797,3318,2642,5442,2418,2166,1147,7390,6393,8024,1963,3362,5514,4606,1353,2418,679,881,2772,5442,1908,1355,1156,2418,6158,1147,7370,511,102]”,其中101和102表示特殊符号“[CLS]”和“[SEP]”。
S103:对bert格式数据进行数值索引转化,得到文本数值索引。
在将医学文本转化为bert格式数据之后,对bert格式数据进行数值索引转化,得到文本数值索引。
S104:利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
预先训练得到主语感知关系提取模型,如可以选用transformer模型训练得到主语感知关系提取模型,利用主语感知关系提取模型以类似于bert语言模型对转化得到的文本数值索引进行上下文动态编码,得到编码结果,编码结果包含了医学文本中各文本词语均存在各自对应的词向量,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
由上述技术方案可知,通过将接收到待实体关系抽取的医学文本转化为bert格式数据,对bert格式数据进行数值索引转化,得到文本数值索引。预先训练主语感知关系提取模型,利用主语感知关系提取模型对转化得到的文本数值索引进行上下文动态编码,对编码结果进行实体关系抽取,得到实体关系抽取结果。通过进行文本数值索引进行上下文动态编码,医学文本中各文本词语均存在各自对应的词向量,保证了医学文本中各词向量的有效性,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
在本发明的一种具体实施方式中,利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,可以包括以下步骤:
利用预训练得到的损失函数最小化的主语感知关系提取模型对文本数值索引进行上下文动态编码。
预先定义主语感知关系提取模型进行反复迭代训练的损失函数,以便模型能反向传播之后更新参数,定义主语感知过程的似然函数公式如下:
其中,embx表示给定的一个句向量,sub表示头实体,以上公式中表示,在给定一个句向量embx利用上述公式来确定头实体sub的范围,t表示当前的token,s表示开始边界,e表示结束边界,L为句子的长度,i为对应句子中第i个token,y为真实的标签分别为0和1,就表示真实标签下对应第i个token是1还是0的概率,整个/>表示为第i个token对应为1的概率,同理/>表示第i个token对应为0的概率,θ表示可以学习的参数有{ws,bs,we,be}。
定义后续的中间层关系-尾实体标注器的似然函数如下:
以上公式表示在给定头实体sub和句子表示embx的前提下,对应的关系下的尾实体obj范围的概率,t表示当前的token,s表示开始边界,e表示结束边界,L为句子的长度,i为对应句子中第i个token,y为真实的标签分别为0和1,就表示真实标签下对应第i个token是1还是0的概率,所以整个/>表示为第i个token对应为1的概率,同理表示第i个token对应为0的概率,φr表示可以学习的参数有如果在该关系下没有包含任何实体即整个公式就为0。
以上为了后续方便计算以上两公式两边同时取对数,并且将包含空尾实体的情况考虑进去之后,整体的loss函数如下所示:
以上公式中D为整个语料集大小,j为当前语料,T为当前token,为对应的当前关系没有包含尾实体的情况。
定义好损失函数之后,经过网络的反向传播至收敛之后,训练得到能够对医学文本进行实体关系准确提取的损失函数最小化的主语感知关系提取模型。利用预训练得到的损失函数最小化的主语感知关系提取模型对文本数值索引进行上下文动态编码,提高了动态编码的准确性。
参见图2,图2为本发明实施例中医学文本的实体关系抽取方法的另一种实施流程图,该方法可以包括以下步骤:
S201:接收待实体关系抽取的医学文本。
S202:对医学文本进行中文文本语料处理。
在接收到待实体关系抽取的医学文本之后,对医学文本进行中文文本语料处理。对医学文本进行中文文本语料处理可以包括去除标点符号、特殊符号以及乱码符号,还可以包括利用现有的医学文本规则库进行处理。
S203:获取语料处理后得到的医学文本的文本长度。
在对医学文本进行中文文本语料处理之后,获取语料处理后得到的医学文本的文本长度。医学文本的文本长度可以以医学文本包含的汉字个数进行计算。
S204:判断文本长度是否大于预设长度值,若是,则执行步骤S205,若否,则执行步骤S206。
预先设置一个文本长度值,在获取语料处理后得到的医学文本的文本长度之后,判断文本长度是否大于预设长度值,若是,则说明当前医学文本较长,执行步骤S205,若否,则说明当前医学文本的长度属于正常范围,跳过步骤S205,直接执行步骤S206。
需要说明的是,预设长度值可以根据实际情况进行设定和调整,本发明实施例对此不做限定,如可以设置为512个汉字。
S205:对语料处理后得到的医学文本进行长文本分割。
当确定文本长度大于预设长度值时,说明当前医学文本较长,对语料处理后得到的医学文本进行长文本分割。避免了bert格式数据使用主语感知关系提取模型进行编码导致对于长序列的输入不是太友好的问题。
S206:将医学文本转化为bert格式数据。
S207:对bert格式数据进行数值索引转化,得到文本数值索引。
S208:通过主语感知关系提取模型的编码层对文本数值索引进行上下文动态编码,得到各序列词向量。
主语感知关系提取模型包括编码层,在对bert格式数据进行数值索引转化,得到文本数值索引之后,通过主语感知关系提取模型的编码层对文本数值索引进行上下文动态编码,得到各序列词向量。
在对主语感知关系提取模型进行训练的过程中,利用现有的医学知识库基于远程监督的思想进行预标注,之后再进行人工校对以及标注补全。以上的标注过程,首先利用现有可及的医学知识库对原始语料进行实体对齐的操作(实体匹配过程),然后得到粗标注的语料进行人工校对,其中包括对相应的实体对打上相应的关系标签,得到精标注语料可用于下一步的操作。
以上得到的精标注语料中保留实体部分,训练一个实体识别模型,对后续的语料可以进行预标注,进行多次的迭代训练之后,完成人工校对过程中大量漏标实体的再标注过程,从而形成一个标注-校对-识别-标注的一个闭环。
在人工校对标注的过程中,需要定义对应实体对类型之间的关系范式(schema),从而方便后续模型进行识别,如表1所示,表1为一种实体关系类型定义表。
表1
头实体类型 | 关系类型 | 尾实体类型 |
疾病 | 预防 | 其他 |
疾病 | 辅助治疗 | 其他治疗 |
疾病 | 化疗 | 其他治疗 |
疾病 | 手术治疗 | 手术治疗 |
疾病 | 发病率 | 流行病学 |
疾病 | 影像学检查 | 检查 |
S209:通过主语感知关系提取模型的主语感知层从各序列词向量中识别得到主语序列词向量。
主语感知关系提取模型还可以包括编码层,在通过主语感知关系提取模型的编码层对文本数值索引进行上下文动态编码,得到各序列词向量之后,通过主语感知关系提取模型的主语感知层从各序列词向量中识别得到主语序列词向量。主语序列词向量识别的核心思路就是对于头实体的span矩阵的起止位置的预测,构建两个二分类器进行0、1分类,公式如下:
pi start_s=σ(Wstarttokeni+bstart);
pi end_s=σ(Wendtokeni+bend);
其中,上述公式中上面公式表示第i个token为起始token的概率,下面的同理表示为终止token的概率。σ(·)表示sigmoid函数将对应的概率映射到0-1之间,Wstart、Wend表示网络可以学习的权重使得概率值达到最好的情况,bstart、bend表示网络中偏置,提高网络的泛化性。tokeni表示第i个字符。
参见图3,图3为本发明实施例中一种医学文本的实体关系抽取流程示意图。以“慢性胰腺炎@###恶心和呕吐”这一医学文本为例,识别得到的主语序列词向量为图3中“慢性胰腺炎”字样下方的虚线框中的向量,该向量的头部和尾部用“1”标识。
S210:通过主语感知关系提取模型的共享向量层对主语序列词向量进行语义感知及语义特征强化。
在通过主语感知关系提取模型的主语感知层从各序列词向量中识别得到主语序列词向量之后,通过主语感知关系提取模型的共享向量层对主语序列词向量进行语义感知及语义特征强化。通过利用的共享向量层对主语序列词向量进行语义感知,进一步感知主语的语义,使得后续的预测更加的精准。通过利用的共享向量层对主语序列词向量进行语义特征强化,进一步丰富了文本的语义特征。
在本发明的一种具体实施方式中,步骤S210可以包括以下步骤:
步骤一:通过共享向量层中的条件正则化子层对主语序列词向量进行语义感知,得到目标语义;
步骤二:通过共享向量层中的特征子层基于预设特征库对目标语义进行语义特征强化。
为方便描述,可以将上述两个步骤结合起来进行说明。
共享向量层包括有两个子层,分别是条件正则化子层和特征子层,首先条件正则化子层的作用是结合到主语序列词向量对主语感知表征,进一步的感知主语的语义,使得后续的预测更加的精准。特征子层会基于现有的特征库,包括有文本的偏旁部首特征库、词性特征库、分词特征库以及句法语法特征库等,与上述条件正则子层得到的感知向量结合进一步的丰富文本的语义特征。
通过选取医学文本中偏旁部首的特征,并选取医学文本中的文本句法分析特征,具体的结合到语义角色分析获取到相对应的文本中的句法,将句中相对应的主谓宾词作为相应的先验知识输入到网络中进行辅助训练,使得主语感知关系提取模型共享向量层中的特征子层能够对进一步丰富文本的语义特征。
S211:将主语序列词向量确定为头实体。
在通过主语感知关系提取模型的共享向量层对主语序列词向量进行语义感知及语义特征强化之后,将主语序列词向量确定为头实体。
S212:通过主语感知关系提取模型的预测层对各序列词向量进行解码操作,得到除主语序列词向量之外各序列词向量分别对应的二分类结果。
主语感知关系提取模型还可以包括预测层,在将主语序列词向量确定为头实体之后,通过主语感知关系提取模型的预测层对各序列词向量进行解码操作,得到除主语序列词向量之外各序列词向量分别对应的二分类结果。
预测层对各序列词向量进行解码的过程还是一个二分类的过程,只不过该层会产生C*2+1个span矩阵(C为关系类型的个数),具体的公式如下所示:
其中,featuresub为检测到的主语编码表示,tokeni是第i个字符的编码表示,σ(·)为sigmoid函数将概率映射到0-1之间,为网络中可学习的权重参数和偏置矩阵。
上面的公式表示在结合主语特征featuresub的条件下对应该关系r中该token是否为宾语的起始token的概率,同理下面的公式表示结合主语特征featuresub的条件下对应该关系r中该token是否为宾语的终止token的概率。
经过以上公式,就能得到对应每个关系下面的尾实体部分。
S213:判断各二分类结果中是否存在正类,若否,则执行步骤S214,若是,则执行步骤S215。
在得到除主语序列词向量之外各序列词向量分别对应的二分类结果之后,判断各二分类结果中是否存在正类,若否,则说明不存在与头实体对应的尾实体,执行步骤S214,若是,则说明存在与头实体对应的尾实体,执行步骤S215。
S214:输出除主语序列词向量之外各序列词向量与主语序列词向量不存在关系提示信息。
当确定各二分类结果中不存在正类时,说明不存在与头实体对应的尾实体,输出除主语序列词向量之外各序列词向量与主语序列词向量不存在关系提示信息。
S215:将正类对应的序列词向量确定为尾实体。
当确定各二分类结果中存在正类时,说明存在与头实体对应的尾实体,将正类对应的序列词向量确定为尾实体。
当确定出除主语序列词向量之外二分类结果为正类的序列词向量数量为多个时,将二分类结果为正类的多个序列词向量分别对应的实体均确定为头实体对应的尾实体。如图3所示,头实体“慢性胰腺炎”对应有“恶心”和“呕吐”两个尾实体。从而准确高效地对医学文本实体关系进行抽取,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性。
S216:将头实体和尾实体确定为实体关系抽取结果。
在确定出头实体和尾实体之后,将头实体和尾实体确定为实体关系抽取结果。即当头实体仅有一个对应的尾实体时,将头实体和特定的一个尾实体确定为实体关系抽取结果,当头实体对应的尾实体数量为多个时,将头实体和多个尾实体一并确定为实体关系抽取结果。
除此之外,在确定出实体关系抽取结果之后,还可以将预测出的三元组进行在线页面展示,也可以是提供API供前端调用,以满足业务逻辑,也可以离线识别之后保存到本地数据库中,方便后续的查询调取。
相应于上面的方法实施例,本发明还提供了一种医学文本的实体关系抽取装置,下文描述的医学文本的实体关系抽取装置与上文描述的医学文本的实体关系抽取装置可相互对应参照。
参见图4,图4为本发明实施例中一种医学文本的实体关系抽取装置的结构框图,该装置可以包括:
文本接收模块41,用于接收待实体关系抽取的医学文本;
格式转化模块42,用于将医学文本转化为bert格式数据;
索引获得模块43,用于对bert格式数据进行数值索引转化,得到文本数值索引;
抽取结果获得模块44,用于利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
由上述技术方案可知,通过将接收到待实体关系抽取的医学文本转化为bert格式数据,对bert格式数据进行数值索引转化,得到文本数值索引。预先训练主语感知关系提取模型,利用主语感知关系提取模型对转化得到的文本数值索引进行上下文动态编码,对编码结果进行实体关系抽取,得到实体关系抽取结果。通过进行文本数值索引进行上下文动态编码,医学文本中各文本词语均存在各自对应的词向量,保证了医学文本中各词向量的有效性,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。
在本发明的一种具体实施方式中,抽取结果获得模块44包括:
词向量获得子模块,用于通过主语感知关系提取模型的编码层对文本数值索引进行上下文动态编码,得到各序列词向量;
头实体确定子模块,用于通过主语感知关系提取模型的主语感知层从各序列词向量中识别得到主语序列词向量,并将主语序列词向量确定为头实体;
二分类结果获得子模块,用于通过主语感知关系提取模型的预测层对各序列词向量进行解码操作,得到除主语序列词向量之外各序列词向量分别对应的二分类结果;
判断子模块,用于判断各二分类结果中是否存在正类;
尾实体确定子模块,用于当确定各二分类结果中存在正类时,将正类对应的序列词向量确定为尾实体;
抽取结果获得子模块,用于将头实体和尾实体确定为实体关系抽取结果。
在本发明的一种具体实施方式中,该装置还可以包括:
语义感知及特征强化模块,用于在通过主语感知关系提取模型的主语感知层从各序列词向量中识别得到主语序列词向量之后,将主语序列词向量确定为头实体之前,通过主语感知关系提取模型的共享向量层对主语序列词向量进行语义感知及语义特征强化。
在本发明的一种具体实施方式中,语义感知及特征强化模块包括:
语义感知子模块,用于通过共享向量层中的条件正则化子层对主语序列词向量进行语义感知,得到目标语义;
特征强化子模块,用于通过共享向量层中的特征子层基于预设特征库对目标语义进行语义特征强化。
在本发明的一种具体实施方式中,该装置还可以包括:
语料处理模块,用于在接收待实体关系抽取的医学文本之后,将医学文本转化为bert格式数据之前,对医学文本进行中文文本语料处理。
在本发明的一种具体实施方式中,该装置还可以包括:
文本长度获取模块,用于在对医学文本进行中文文本语料处理之后,将医学文本转化为bert格式数据之前,获取语料处理后得到的医学文本的文本长度;
判断模块,用于判断文本长度是否大于预设长度值;
文本分割模块,用于当确定文本长度大于预设长度值时,对语料处理后得到的医学文本进行长文本分割。
在本发明的一种具体实施方式中,抽取结果获得模块具体为利用预训练得到的损失函数最小化的主语感知关系提取模型对文本数值索引进行上下文动态编码的模块。
相应于上面的方法实施例,参见图5,图5为本发明所提供的医学文本的实体关系抽取设备的示意图,该设备可以包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的医学文本的实体关系抽取方法的步骤。
具体的,请参考图6,图6为本实施例提供的一种医学文本的实体关系抽取设备的具体结构示意图,该医学文本的实体关系抽取设备可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在医学文本的实体关系抽取设备301上执行存储器332中的一系列指令操作。
医学文本的实体关系抽取设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的医学文本的实体关系抽取方法中的步骤可以由医学文本的实体关系抽取设备的结构实现。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
接收待实体关系抽取的医学文本;将医学文本转化为bert格式数据;对bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (7)
1.一种医学文本的实体关系抽取方法,其特征在于,包括:
接收待实体关系抽取的医学文本;
将所述医学文本转化为bert格式数据;
对所述bert格式数据进行数值索引转化,得到文本数值索引;
利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果;具体为:
通过所述主语感知关系提取模型的编码层对所述文本数值索引进行上下文动态编码,得到各序列词向量;
通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量,再通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化,具体为:通过所述共享向量层中的条件正则化子层对所述主语序列词向量进行语义感知,得到目标语义,通过所述共享向量层中的特征子层基于预设特征库对所述目标语义进行语义特征强化;并将语义感知及语义特征强化后的所述主语序列词向量确定为头实体;
通过所述主语感知关系提取模型的预测层对各所述序列词向量进行解码操作,得到除所述主语序列词向量之外各所述序列词向量分别对应的二分类结果;
判断各所述二分类结果中是否存在正类;
若是,则将所述正类对应的序列词向量确定为尾实体;
将所述头实体和所述尾实体确定为所述实体关系抽取结果。
2.根据权利要求1所述的医学文本的实体关系抽取方法,其特征在于,在接收待实体关系抽取的医学文本之后,将所述医学文本转化为bert格式数据之前,还包括:
对所述医学文本进行中文文本语料处理。
3.根据权利要求2所述的医学文本的实体关系抽取方法,其特征在于,在对所述医学文本进行中文文本语料处理之后,将所述医学文本转化为bert格式数据之前,还包括:
获取语料处理后得到的医学文本的文本长度;
判断所述文本长度是否大于预设长度值;
若是,则对语料处理后得到的医学文本进行长文本分割。
4.根据权利要求1所述的医学文本的实体关系抽取方法,其特征在于,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,包括:
利用预训练得到的损失函数最小化的主语感知关系提取模型对所述文本数值索引进行上下文动态编码。
5.一种医学文本的实体关系抽取装置,其特征在于,包括:
文本接收模块,用于接收待实体关系抽取的医学文本;
格式转化模块,用于将所述医学文本转化为bert格式数据;
索引获得模块,用于对所述bert格式数据进行数值索引转化,得到文本数值索引;
抽取结果获得模块,用于利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
6.一种医学文本的实体关系抽取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述医学文本的实体关系抽取方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述医学文本的实体关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210433927.9A CN114637852B (zh) | 2022-04-24 | 2022-04-24 | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210433927.9A CN114637852B (zh) | 2022-04-24 | 2022-04-24 | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114637852A CN114637852A (zh) | 2022-06-17 |
CN114637852B true CN114637852B (zh) | 2023-12-08 |
Family
ID=81951576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210433927.9A Active CN114637852B (zh) | 2022-04-24 | 2022-04-24 | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114637852B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737924B (zh) * | 2023-04-27 | 2024-06-25 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
-
2022
- 2022-04-24 CN CN202210433927.9A patent/CN114637852B/zh active Active
Non-Patent Citations (1)
Title |
---|
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction;Zhepei Wei 等;In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics;第1476–1488页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114637852A (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110737763A (zh) | 一种融合知识图谱和深度学习的中文智能问答系统及方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN115292457B (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN111930942A (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN117217233A (zh) | 文本纠正、文本纠正模型训练方法及装置 | |
CN116975212A (zh) | 问题文本的答案查找方法、装置、计算机设备和存储介质 | |
CN114637852B (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN118313382A (zh) | 一种基于特征金字塔的小样本命名实体识别方法和系统 | |
CN117891958A (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
CN115617959A (zh) | 问题解答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |