CN114841151B - 基于分解-重组策略的医学文本实体关系联合抽取方法 - Google Patents

基于分解-重组策略的医学文本实体关系联合抽取方法 Download PDF

Info

Publication number
CN114841151B
CN114841151B CN202210777344.8A CN202210777344A CN114841151B CN 114841151 B CN114841151 B CN 114841151B CN 202210777344 A CN202210777344 A CN 202210777344A CN 114841151 B CN114841151 B CN 114841151B
Authority
CN
China
Prior art keywords
entity
relation
tail
entities
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210777344.8A
Other languages
English (en)
Other versions
CN114841151A (zh
Inventor
朱强
洪铖
刘军平
王帮超
罗瑞奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202210777344.8A priority Critical patent/CN114841151B/zh
Publication of CN114841151A publication Critical patent/CN114841151A/zh
Application granted granted Critical
Publication of CN114841151B publication Critical patent/CN114841151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明具体涉及一种基于分解‑重组策略的医学文本实体关系联合抽取方法。本方法将医学文本实体关系抽取任务分解成实体标记、关系分类和重组匹配三个子模块,具体包括S1:对医学文本进行数据预处理;S2:将处理后的数据输入预训练模型编码器,输出包含语义信息的词向量;S3:将词向量输入到基于跨度的实体标记模块,抽取出医学文本中的所有头实体和尾实体;S4:将词向量输入到关系分类模块,抽取出所有可能存在的关系,同时利用焦点损失函数缓解关系样本分布失衡问题;S5:将抽取出的头实体和关系进行重组,利用自注意力机制匹配相应尾实体,解决三元组实体重叠问题。经过实验证明,本方法能有效提高医学文本数据中实体关系三元组的抽取效果。

Description

基于分解-重组策略的医学文本实体关系联合抽取方法
技术领域
本发明属于医学文本数据分析领域,具体涉及一种基于分解-重组策略的医学文本实体关系联合抽取方法。
背景技术
人工智能领域中的自然语言处理技术近年来在医学领域得到了广泛的应用。其中,在医学文本中进行信息抽取是大量研究人员关注的方向。医学实体关系抽取是医学文本信息抽取的子任务之一,其目标是从大量非结构化医学文本中抽取出实体及实体之间的关系,并以三元组(头实体,关系,尾实体)的形式表示,例如医学文本“E. coli usuallylives in the gut.”中存在三元组(E. coli, lives in, gut)。医学实体关系抽取在医学知识图谱的构建和补全、医学文本挖掘等方面都具有非常重要的作用。
医学实体关系抽取有实体识别和关系抽取两个子任务。传统的医学实体关系抽取模型大多采用基于流水线(pipeline)的方法,即对实体识别和关系抽取分别建模,依次完成两项子任务。但流水线方法存在一些不足:首先,分别建模将导致两个子任务相互独立,忽略了任务之间的联系;其次,两个模型之间存在错误累积,即实体识别中的错误实体将传播到关系抽取模型中,进而影响关系抽取的效果;最后,大量不存在关系的实体也被输入到关系抽取模型中,从而产生大量冗余实体。为了解决流水线方法中存在的问题,研究人员提出将两个子任务进行统一建模的医学实体关系联合抽取方法。
研究发现,医学实体关系抽取任务中的实体重叠问题和关系样本分布失衡问题严重影响着医学三元组的抽取效果。实体重叠问题是指单个实体存在于多个三元组中,根据重叠情况可分为正常、单实体重叠和实体对完全重叠,具体如图3所示。关系样本分布失衡问题是指医学文本数据中,不同关系类型的数量差别巨大,导致经过训练后的模型对数量少的关系抽取能力较弱,进而影响最终的抽取效果。
发明内容
本发明的目的在于:为了解决医学实体关系抽取任务中的实体重叠和关系样本分布失衡问题,提出一种基于分解-重组策略的医学文本实体关系联合抽取方法。本发明采用的技术方案如下:
步骤S1,对医学文本数据进行数据预处理操作,以获得可供模型训练的医学文本数据;
步骤S2,将经过文本预处理后得到的句子输入到编码器,获取包含句子的特征的词向量序列;
步骤S3,将包含语义信息的词向量序列输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体,并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置;
步骤S4,为了获取句子中实体之间存在的关系,将编码器输出的词向量输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列中所有可能存在的关系;
步骤S5,为了解决实体重叠问题,将实体标记模块中获取的每一个头实体,与关系分类模块中获取的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系组合;接着,将每个组合的头实体和关系的特征相结合,再使用Self-Attention机制获得所有尾实体的相关性特征,以匹配最相关尾实体的起始位置,从而获得该三元组中的尾实体,最终完成医学实体关系三元组的抽取工作。
进一步的,步骤S1中所述预训练包括对医学文本句子进行分句与分词。
进一步的,步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器,对于输入长度为n的句子,经过编码器后得到包含语义信息的词向量序列X:{x 1 , x 2 ,…,x n }
进一步的,步骤S3的具体实现方式如下;
S31:将步骤2中得到的词向量序列X输入到实体标记模块,用于提取文本中的头实体和尾实体,对于输入词向量序列X中第i个位置的表示x i ,利用一个二分类器预测x i 为实体起始位置和结束位置的概率;
S32:如果概率超过阈值,则对应x i 将会被标记1,否则将被标记为0;采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置,具体公式表示为:
Figure 566158DEST_PATH_IMAGE001
其中,p i start p i end 分别表示x i 为实体起始位置和结束位置的概率,W start W end 为可训练的权重,b start b end 为偏差,激活函数为sigmoid函数;
S33:基于跨度实体标记模块通过以下似然函数确定实体e的跨度,实体e表示头实体或尾实体;
Figure 14457DEST_PATH_IMAGE002
其中,n表示输入词向量序列的长度,startend分别表示实体的开始位置和结束位置,y i t x i 为起始位置或结束位置的标记,即实体的开始位置和结束位置的真实值,开始位置和结束位置用1标记,其他位置用0标记;θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合,t的值可取startend,当取值为start时,表示预测当前实体的起始位置;当取值为end时,表示预测当前实体的结束位置;当y i t =1时,I{y i t =1}的值为1,否则为0;当y i t =0时,I{y i t =0}的值为1,否则为0;
S34:基于跨度的实体标记模块利用以下损失函数进行训练;
Figure 935140DEST_PATH_IMAGE003
其中,n表示输入词向量序列的长度,θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合,X为输入序列,p θ (e|x)为实体e的跨度;
S35:将提取出来的所有头实体和尾实体分别表示为M sub M obj
进一步的,步骤4的具体实现方式如下;
S41:将编码器的输出词向量输入到关系分类模块,接着对所有关系类型进行概率预测,从而提取出序列X中所有可能存在的关系,具体公式表示为:
Figure 32147DEST_PATH_IMAGE004
其中,X为编码器输出的词向量序列,W rel b rel 为可训练的权重和偏差,激活函数为sigmoid函数;
S42:对于关系样本分布均衡的数据集,关系分类模块使用以下交叉熵损失函数:
Figure 377677DEST_PATH_IMAGE005
其中,n表示输入词向量序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值;
在关系样本分布失衡的数据集上,使用焦点损失(Focal Loss)函数代替交叉熵损失函数,作为关系分类模块的损失函数:
Figure 341085DEST_PATH_IMAGE006
其中,n表示输入词向量序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值,γ为可调节参数;
S43:将抽取出的关系表示为M rel
进一步的,步骤5的具体实现方式如下;
S51:将从实体标记模块中获取的M sub 中的每一个头实体,与从关系分类模块中获取的M rel 中的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系的组合;
S52:将每个组合的头实体和关系的特征相结合;
S53:使用Self-Attention机制获得M obj 中所有尾实体的相关性特征;
S54:使用一个类似于实体标记模块中的二分类器来预测尾实体起始位置的概率,具体公式为:
Figure 139277DEST_PATH_IMAGE007
其中,A i 为输入词向量序列X中第i个词的注意力特征,该注意力特征为利用Self-Attention机制获得的尾实体相关性特征,p i start X中第i个词为尾实体起始位置的概率,W att b att 均为可训练的权重和偏差;
S55:获得尾实体起始位置的概率后,再与实体标记模块中的M obj 进行匹配,若起始位置相同,则该尾实体即为这个头实体和关系组合的尾实体,完成医学文本三元组的抽取任务。
进一步的,S52的具体实现方式如下;
设置组合为{s1,r1},其中,s1表示头实体,r1表示关系,首先,利用基于跨度的实体标记模块中获取到的s1起始位置信息和结束位置信息,通过映射操作将s1表示为张量vs1
为了能结合s1和r1的特征,将r1映射到与vs1维度相同的张量中,通过全连接层以获得关系r1的特征张量vr1
将vs1和vr1相加,从而达到结合s1和r1特征的目的。
进一步的,步骤S5中Self-Attention机制通过最小化以下损失函数来训练模型;
Figure 541440DEST_PATH_IMAGE008
其中,n表示输入词向量序列的长度,当y i =1时,II{y i =1}的值为1,否则为0;当y i =0时,II{y i =0}的值为1,否则为0。
本发明具有以下有益效果:
本文提出的基于分解-重组策略的医学文本实体关系联合抽取方法能够有效解决医学文本中的实体重叠问题,使得医学文本中大量的重叠三元组也能够被详尽的提取出来,避免了实体关系三元组的遗漏。同时,对于关系样本数量分布失衡的医学文本,本方法能够在不影响大比例关系类型提取效果的前提下,有效提高小比例关系类型的提取效果。本方法能够有效提高医学文本实体关系三元组的抽取效果。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的模型图。
图3为实体重叠的三种类型示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,但不用于限定本发明。
参照图1,本发明提供一种基于分解-重组策略的医学文本实体关系联合抽取方法,包括步骤:
S1:对医学文本数据进行数据预处理操作,具体包括医学文本的分句和分词等操作,以获得可供模型训练的医学文本数据。
S2:将经过文本预处理后得到的句子输入到编码器,目的是获取包含句子特征的词向量序列。由于不同领域的文本数据有其各自的特点,因此对于医学领域数据集,选择利用了大量医学文本训练的BioBERT预训练模型作为编码器。该编码器能够将医学文本中的每个词编码成包含上下文语义信息的词向量,这些词向量作为后续医学实体关系三元组抽取工作的基础。
S3:将包含语义信息的词向量输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体。该基于跨度的实体标记模块由激活函数为Softmax的二分类器组成,该分类器用于获取每种跨度的起始位置为实体起始位置的概率;若概率超过阈值,则认为此位置就是实体的起始位置,预测结束位置的方法与预测起始位置的方法类似。本文方法采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置。
S4:为了获取句子中实体之间存在的关系,将BioBERT预训练模型输出的词向量输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列中所有可能存在的关系。关系分类模块使用激活函数为Softmax的分类器预测所有关系的概率,对概率超过阈值的关系类型进行保留。
S5:为了解决实体重叠问题,本方法将基于跨度的实体标记模块中获取的每一个头实体,与关系分类模块中获取的每一种关系进行两两重组,使所有可能成为三元组的头实体和关系都被考虑在内。接着,将每个组合的头实体和关系的特征相结合,再使用Self-Attention机制获得所有尾实体的相关性特征,以匹配最相关尾实体的起始位置,从而获得该三元组中的尾实体,最终完成医学实体关系三元组的抽取工作。具体的,假设输入长度为n的医学文本句子:
本实施例中,步骤S1具体为:
将医学文本句子进行分句分词等数据预处理,以获得可供模型训练的医学文本数据。
本实施例中,步骤S2具体为:
将经过文本预处理后得到的句子输入到预训练模型BioBERT进行编码。对于输入长度为n的句子,经过预训练模型后得到包含语义信息的词向量序列X:{x 1 ,x 2 ,…,x n }
本实施例中,步骤S3具体为:
S31:将X输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体。对于输入序列X中第i个位置的表示x i ,利用一个二分类器预测x i 为实体起始位置和结束位置的概率。
S32:如果概率超过阈值,则对应x i 将会被标记1,否则将被标记为0。本文方法采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置。
Figure 616843DEST_PATH_IMAGE009
其中,p i start p i end 分别表示x i 为实体起始位置和结束位置的概率,W start W end 为可训练的权重,b start b end 为偏差,激活函数为sigmoid函数;
S33:基于跨度实体标记模块通过以下似然函数确定实体e(包括头实体和尾实体,头实体和尾实体的预测方式相同)的跨度:
Figure 875786DEST_PATH_IMAGE010
其中,n表示输入序列的长度,startend分别表示实体的开始位置和结束位置。y i t x i 为起始位置或结束位置的0/1标记,即实体的开始位置和结束位置的真实值,开始位置和结束位置用1标记,其他位置用0标记。θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合。t的值可取startend,当取值为start时,表示预测当前实体的起始位置;当取值为end时,表示预测当前实体的结束位置。当y i t =1时,I{y i t =1}的值为1,否则为0;当y i t =0时,I{y i t =0}的值为1,否则为0。
S34:基于跨度的实体标记模块利用以下损失函数训练模型
Figure 337772DEST_PATH_IMAGE011
其中,n表示输入序列的长度,θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合,X为输入序列,p θ (e|x)为实体e的跨度。
S35:将提取出来的所有头实体和尾实体分别表示为M sub M obj
本实施例中,步骤S4具体为:
S41:将预训练模型的输出词向量序列输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列X中所有可能存在的关系,具体公式如下:
Figure 481309DEST_PATH_IMAGE012
其中,X为预训练模型的输出,W rel b rel 为可训练的权重和偏差,激活函数为sigmoid函数。
S42:对于关系样本分布均衡的数据集,关系分类模块使用以下交叉熵损失函数:
Figure 535852DEST_PATH_IMAGE013
其中,n表示输入序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值。
在关系样本分布失衡的数据集上,使用焦点损失(Focal Loss)函数代替交叉熵损失函数,作为关系分类模块的损失函数:
Figure 106642DEST_PATH_IMAGE014
其中,n表示输入序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值,γ为可调节参数。
S43:将抽取出的关系表示为M rel
在本实施例中,步骤S5具体为:
S51:将从基于跨度的实体标记模块中获取的M sub 中的每一个头实体,与从关系分类模块中获取的M rel 中的每一种关系进行两两重组,使所有可能成为三元组的头实体和关系都被考虑在内。
S52:输入序列X中存在M sub ={s1,s2,s3},表示存在3个头实体;存在M rel ={r1,r2},表示存在2种关系。经过重组后存在6种头实体和关系的组合:{s1,r1}{s2,r1}{s3,r1}{s1,r2}{s2,r2}{s3,r2}。
S53:以组合{s1,r1}为例:首先,利用基于跨度的实体标记模块中获取到的s1起始位置信息和结束位置信息,通过映射操作将s1表示为张量vs1
S54:为了能结合s1和r1的特征,需要将r1映射到与vs1维度相同的张量中,通过全连接层以获得关系r1的特征张量vr1
S55:将vs1和vr1相加,从而达到结合s1和r1特征的目的。然后,使用Self-Attention机制获得尾实体的相关性特征A
S56:使用一个类似于基于跨度的实体标记模块中的二分类器来预测尾实体起始位置的概率,具体公式如下:
Figure 879426DEST_PATH_IMAGE015
其中,A i 为输入序列X中第i个词的注意力特征,该注意力特征为利用Self-Attention机制获得的尾实体相关性特征。p i start X中第i个词为尾实体起始位置的概率,W att b att 均为可训练的权重和偏差。
S57:Self-Attention机制中最后通过最小化以下损失函数来训练模型:
Figure 357812DEST_PATH_IMAGE016
其中,n表示输入序列的长度,当y i =1时,II{y i =1}的值为1,否则为0;当y i =0时,II{y i =0}的值为1,否则为0。
S56:将头实体、关系和尾实体以医学三元组的形式输出,最终完成医学文本实体关系三元组的抽取工作。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于分解-重组策略的医学文本实体关系联合抽取方法,包括以下步骤:
步骤S1,对医学文本数据进行数据预处理操作,以获得可供模型训练的医学文本数据;
步骤S2,将经过文本预处理后得到的句子输入到编码器,获取包含句子的特征的词向量序列;
步骤S3,将包含语义信息的词向量序列输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体,并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置,定义两个集合M sub M obj ,分别用于存放预测出的头实体和尾实体;
步骤S4,为了获取句子中实体之间存在的关系,将编码器输出的词向量输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列中所有可能存在的关系,定义集合M rel ,用于存放提取出的关系;
步骤S5,为了解决实体重叠问题,将实体标记模块中获取的每一个头实体,与关系分类模块中获取的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系组合;接着,将每个组合的头实体和关系的特征相结合,再使用Self-Attention机制获得所有尾实体的相关性特征,以匹配最相关尾实体的起始位置,从而获得该三元组中的尾实体,最终完成医学实体关系三元组的抽取工作;
步骤S5的具体实现方式如下;
S51:将从实体标记模块中获取的M sub 中的每一个头实体,与从关系分类模块中获取的M rel 中的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系的组合;
S52:将每个组合的头实体和关系的特征相结合;
S52的具体实现方式如下;
设置组合为{s1,r1},其中,s1表示头实体,r1表示关系,首先,利用基于跨度的实体标记模块中获取到的s1起始位置信息和结束位置信息,通过映射操作将s1表示为张量vs1
为了能结合s1和r1的特征,将r1映射到与vs1维度相同的张量中,通过全连接层以获得关系r1的特征张量vr1
将vs1和vr1相加,从而达到结合s1和r1特征的目的;
S53:使用Self-Attention机制获得M obj 中所有尾实体的相关性特征;
S54:使用一个类似于实体标记模块中的二分类器来预测尾实体起始位置的概率,具体公式为:
Figure 996350DEST_PATH_IMAGE001
其中,A i 为输入词向量序列X中第i个词的注意力特征,该注意力特征为利用Self-Attention机制获得的尾实体相关性特征,p i start X中第i个词为尾实体起始位置的概率,W att b att 均为可训练的权重和偏差;
S55:获得尾实体起始位置的概率后,再与实体标记模块中的M obj 进行匹配,若起始位置相同,则该尾实体即为这个头实体和关系组合的尾实体,完成医学文本三元组的抽取任务。
2.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S1中预训练包括对医学文本句子进行分句与分词。
3.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器,对于输入长度为n的句子,经过编码器后得到包含语义信息的词向量序列X:{x 1 ,x 2 ,…,x n }
4.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S3的具体实现方式如下;
S31:将步骤S2中得到的词向量序列X输入到实体标记模块,用于提取文本中的头实体和尾实体,对于输入词向量序列X中第i个位置的表示x i ,利用一个二分类器预测x i 为实体起始位置和结束位置的概率;
S32:如果概率超过阈值,则对应x i 将会被标记1,否则将被标记为0;采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置,具体公式表示为:
Figure 200935DEST_PATH_IMAGE002
其中,p i start p i end 分别表示x i 为实体起始位置和结束位置的概率,W start W end 为可训练的权重,b start b end 为偏差,激活函数为sigmoid函数;
S33:基于跨度实体标记模块通过以下似然函数确定实体e的跨度,实体e表示头实体或尾实体;
Figure 554556DEST_PATH_IMAGE003
其中,n表示输入词向量序列的长度,startend分别表示实体的开始位置和结束位置,y i t x i 为起始位置或结束位置的标记,即实体的开始位置和结束位置的真实值,开始位置和结束位置用1标记,其他位置用0标记;θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合,t的值可取startend,当取值为start时,表示预测当前实体的起始位置;当取值为end时,表示预测当前实体的结束位置;当y i t =1时,I{y i t =1}的值为1,否则为0;当y i t =0时,I{y i t =0}的值为1,否则为0;
S34:基于跨度的实体标记模块利用以下损失函数进行训练;
Figure 228114DEST_PATH_IMAGE004
其中,n表示输入词向量序列的长度,θ={W start ,b start ,W end ,b end }表示可训练权重和偏差的集合,X为输入序列,p θ (e|X)为实体e的跨度的概率,其中p θ start (e|X)表示实体起始位置概率,p θ end (e|X)表示实体结束位置概率;
S35:将提取出来的所有头实体和尾实体分别表示为M sub M obj
5.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S4的具体实现方式如下;
S41:将编码器的输出词向量输入到关系分类模块,接着对所有关系类型进行概率预测,从而提取出序列X中所有可能存在的关系,具体公式表示为:
Figure 958172DEST_PATH_IMAGE005
其中,X为编码器输出的词向量序列,W rel b rel 为可训练的权重和偏差,激活函数为sigmoid函数;
S42:对于关系样本分布均衡的数据集,关系分类模块使用以下交叉熵损失函数:
Figure 282843DEST_PATH_IMAGE006
其中,n表示输入词向量序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值;
在关系样本分布失衡的数据集上,使用焦点损失(Focal Loss)函数代替交叉熵损失函数,作为关系分类模块的损失函数:
Figure 807366DEST_PATH_IMAGE007
其中,n表示输入词向量序列的长度,r i 表示所有关系中的第i种关系的概率,y i 表示该文本中关系类型的真实值,γ为可调节参数;
S43:将抽取出的关系表示为M rel
6.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S5中Self-Attention机制通过最小化以下损失函数来训练模型;
Figure 536594DEST_PATH_IMAGE008
其中,n表示输入词向量序列的长度,当y i =1时,II{y i =1}的值为1,否则为0;当y i =0时,II{y i =0}的值为1,否则为0。
CN202210777344.8A 2022-07-04 2022-07-04 基于分解-重组策略的医学文本实体关系联合抽取方法 Active CN114841151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210777344.8A CN114841151B (zh) 2022-07-04 2022-07-04 基于分解-重组策略的医学文本实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210777344.8A CN114841151B (zh) 2022-07-04 2022-07-04 基于分解-重组策略的医学文本实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN114841151A CN114841151A (zh) 2022-08-02
CN114841151B true CN114841151B (zh) 2022-11-18

Family

ID=82573540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210777344.8A Active CN114841151B (zh) 2022-07-04 2022-07-04 基于分解-重组策略的医学文本实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN114841151B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270801B (zh) * 2022-09-28 2022-12-30 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115759098B (zh) * 2022-11-14 2023-07-18 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368528B (zh) * 2020-03-09 2022-07-08 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111709243B (zh) * 2020-06-19 2023-07-07 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN113887211A (zh) * 2021-10-22 2022-01-04 中国人民解放军战略支援部队信息工程大学 基于关系导向的实体关系联合抽取方法及系统
CN114510939A (zh) * 2021-12-17 2022-05-17 深港产学研基地(北京大学香港科技大学深圳研修院) 实体关系抽取方法、装置、电子设备及存储介质
CN114564563A (zh) * 2022-02-21 2022-05-31 云南大学 一种基于关系分解的端到端实体关系联合抽取方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法

Also Published As

Publication number Publication date
CN114841151A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN112528676B (zh) 文档级别的事件论元抽取方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN107818080A (zh) 术语识别方法及装置
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN113407660A (zh) 非结构化文本事件抽取方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN109670164A (zh) 基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法
CN111191461A (zh) 一种基于课程学习的远程监督关系抽取方法
CN114780723A (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN117390189A (zh) 基于前置分类器的中立文本生成方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant