CN113761921A - 一种基于双任务模型的词语处理方法及装置 - Google Patents
一种基于双任务模型的词语处理方法及装置 Download PDFInfo
- Publication number
- CN113761921A CN113761921A CN202010507279.8A CN202010507279A CN113761921A CN 113761921 A CN113761921 A CN 113761921A CN 202010507279 A CN202010507279 A CN 202010507279A CN 113761921 A CN113761921 A CN 113761921A
- Authority
- CN
- China
- Prior art keywords
- relation
- vector
- coding
- vectors
- pruning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 669
- 238000000605 extraction Methods 0.000 claims abstract description 267
- 238000013138 pruning Methods 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 136
- 239000012634 fragment Substances 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 35
- 230000009977 dual effect Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 244000141353 Prunus domestica Species 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于双任务模型的词语处理方法及装置,其中所述方法,包括:获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。本申请提供的方法及装置,可以提高关系抽取任务和实体识别任务的正确率、召回率,提高词语处理的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于双任务模型的词语处理方法及装置、双任务模型的训练方法及装置、计算设备及计算机可读存储介质。
背景技术
实体识别是指在非结构化的文本中识别并抽出具有特定意义或指代性强的实体,比如人名、地名、组织结构名、日期时间、专有名词等。
关系是两个或多个实体之间的某种联系,关系抽取是从文本中检测和识别出实体与实体之间具有的某种语义关系,比如句子“北京是中国的首都、政治中心和文化中心”,其中表述的关系可以为(中国,首都,北京)、(中国,政治中心,北京)或(中国,文化中心,北京)。
目前,对于语句的实体识别任务、关系抽取任务均是分别进行的,任务之间信息无法共享,互相无法约束,进而导致实体识别、关系抽取的效果均不理想。
发明内容
有鉴于此,本申请实施例提供了一种基于双任务模型的词语处理方法及装置、双任务模型的训练方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种基于双任务模型的词语处理方法,包括:
获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;
通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;
将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
可选地,将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系,包括:
通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量;
基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
可选地,所述实体识别模型与所述关系抽取模型共用一个用于打分的前馈神经网络;
所述通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量,包括:
将所述候选实体片段编码向量输入至实体识别模型中,通过所述前馈神经网络对所述候选实体片段编码向量进行打分;
基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,获得所述候选实体片段编码向量的分类标签,并对所述候选实体片段编码向量进行剪枝,获得识别剪枝编码向量。
可选地,所述关系抽取模型与所述实体识别模型共用一个用于打分的前馈神经网络;
通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,包括:
将所述识别剪枝编码向量输入至所述关系抽取模型中,通过所述前馈神经网络对所述识别剪枝编码向量进行打分,得到所述识别剪枝编码向量的分数;
将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。
可选地,所述基于所述关系抽取编码向量生成第一关系对编码向量,包括:
基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量;
对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
可选地,所述对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量,包括:
通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数;
对所述第一初始关系对编码向量进行分类预测处理,获得所述第一初始关系对编码向量的类别;
基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
可选地,所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量,包括:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量及其对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
可选地,所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量,包括:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量在所述候选实体片段中的位置,确定该任意两个关系抽取编码向量之间的语义向量;
基于任意两个所述关系抽取编码向量、该任意两个关系抽取编码向量之间的语义向量以及每个所述关系抽取编码向量对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
可选地,确定该任意两个关系抽取编码向量之间的语义向量,包括:
确定该任意两个关系抽取编码向量之间的多个词向量;
将所述任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理,得到对应的语义向量。
可选地,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量,包括:根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系,分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。
可选地,通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数,包括:
通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分,并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。
可选地,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,包括:
通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,获得关系抽取结果。
本申请实施例提供了一种双任务模型的训练方法,包括:
获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签,并基于每个样本候选实体对的样本候选实体生成样本候选实体片段编码向量;
通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量;
将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量;
基于样本识别剪枝编码向量、第一样本关系对编码向量分别确定所述实体识别模型和所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
可选地,将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量,包括:
将所述样本识别剪枝编码向量输入至所述关系抽取模型中,通过所述关系抽取模型对所述样本识别剪枝编码向量进行打分,并基于分值对所述样本识别剪枝编码向量进行剪枝,获得样本关系抽取编码向量,基于所述样本关系抽取编码向量生成第一样本关系对编码向量。
可选地,分别基于样本识别剪枝编码向量和第一样本关系对编码向量确定所述实体识别模型和所述关系抽取模型的损失值,包括:
基于样本识别剪枝编码向量的分值与样本识别剪枝编码向量的分类标签利用交叉熵损失函数计算实体识别模型的损失值;
基于第一样本关系对编码向量的分值与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值。
可选地,所述第一样本关系对编码向量包括两个样本关系抽取编码向量;
基于第一样本关系对编码向量与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值,包括:
在所述分类标签为对称关系标签的情况下,将所述第一样本关系对编码向量的两个样本关系抽取编码向量进行反向排列,生成反向第一样本关系对编码向量;
将所述第一样本关系对编码向量以及所述分类标签、所述反向第一样本关系对编码向量以及所述分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。
本申请实施例提供了一种基于双任务模型的词语处理装置,包括:
实体片段获取模块,被配置为获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;
实体识别剪枝模块,被配置为通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;
关系抽取处理模块,被配置为将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
本申请实施例提供了一种双任务模型的训练装置,包括:
样本获取模块,被配置为获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签,并基于每个样本候选实体对的样本候选实体生成样本候选实体片段编码向量;
样本识别模块,被配置为通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量;
样本处理模块,被配置为将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量;
模型训练模块,被配置为分别基于样本识别剪枝编码向量、第一样本关系对编码向量分别确定所述实体识别模型和所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
本申请实施例提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现基于双任务模型的词语处理方法或者双任务模型的训练方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现基于双任务模型的词语处理方法或者双任务模型的训练方法的步骤。
本申请提供的基于双任务模型的词语处理方法及装置,首先通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量,以减少候选实体片段编码向量中的负例,再分别通过关系抽取模型对识别剪枝编码向量进行处理,可以加强关系抽取模型对候选实体片段的理解,为关系抽取任务的执行提供基础,有效提高词语处理的准确性。
本申请提供的基于双任务模型的词语处理方法及装置,实现了关系抽取模型、实体识别模型的有机结合,实现了关系抽取任务、实体识别任务的有机结合,实现了上述两个任务中信息的共享,可以有效提高关系抽取任务和实体识别任务的正确率、召回率,有效提高词语关系确定基于双任务模型的词语处理的准确率。
其次,本实施例中通过根据任意两个关系抽取编码向量在候选实体片段中的语义关系,分别获得任意两个关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量,从而在获取关系抽取结果的过程中,引入了语义关系的考量,从而可以使关系抽取结果更加准确。
本申请提供的双任务模型的训练方法及装置,在训练过程中首先将关系抽取任务、实体识别任务进行有机结合,再分别对关系抽取模型和实体识别模型进行训练,可以有效提高模型训练的效果,提高关系抽取模型和实体识别模型的性能。
附图说明
图1是本申请一实施例所述的双任务模型的结构示意图;
图2是本申请一实施例所述的基于双任务模型的词语处理方法的步骤流程示意图;
图3是本申请另一实施例所述的基于双任务模型的词语处理方法的步骤流程示意图;
图4是本申请一实施例所述的双任务模型的训练方法的步骤流程示意图;
图5是本申请一实施例所述的基于双任务模型的词语处理装置的结构示意图;
图6是本申请一实施例所述的双任务模型的训练装置的结构示意图;
图7是本申请一实施例所述的计算设备的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
实体识别:是指在非结构化的文本中识别并抽出具有特定意义或指代性强的实体,比如人名、地名、组织结构名、日期时间、专有名词等。
实体识别模型:用于执行实体识别任务的模型。
关系抽取:从文本中检测和识别出实体与实体之间具有的某种语义关系,比如句子“北京是中国的首都、政治中心和文化中心”,其中表述的关系可以为(中国,首都,北京)、(中国,政治中心,北京)或(中国,文化中心,北京)。
关系抽取模型:用于执行关系抽取任务的模型。
候选实体片段(span):由语句中的一个词或多个词组成的片段。
候选实体片段编码向量(span embedding):候选实体片段经过编码器的编码处理生成的向量。
识别剪枝编码向量:候选实体片段编码向量经过剪枝后剩余的编码向量。
剪枝:根据预设的规则进行筛选。
关系抽取编码向量:基于关系抽取处理结果对识别剪枝编码向量进行剪枝后剩余的编码向量。
第一标签向量:对关系抽取编码向量的分类标签进行编码处理得到的编码向量。
第一初始关系对编码向量:基于两个关系抽取编码向量及其第一标签向量以及距离特征向量组合而成的编码向量。
第一关系对编码向量:基于第一初始关系对编码向量的分数对第一初始关系对编码向量进行剪枝后剩余的编码向量。
前馈神经网络(FeedForward Neural Network,FFNN):一种最简单的神经网络,各神经元分层排列,每个神经元只与前一层的神经元相连,接收前一层的输出,并输出给下一层.各层间没有反馈,是目前应用最广泛、发展最迅速的人工神经网络之一。在本申请中,实体识别模型、关系抽取模型共用一个用于打分的前馈神经网络进行打分。
卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习(deep learning)的代表算法之一,在本申请中,通过CNN网络编码得到每一个词相应的字符级别的特征。
分类标签:用于标识编码向量类型的标识。
正确率:是指识别出的正确实体数与识别出的实体数的比值,取值在0-1之间,数值越大,正确率越高。
召回率:是指识别出的正确实体数与样本的实体数的比值,取值在0-1之间,数值越大,召回率越高。
加权调和平均值:又称F1值,F1值=(2*正确率*召回率)/(正确率+召回率)。
在本申请中,提供了一种基于双任务模型的词语处理方法及装置、双任务模型的训练方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
如图1所示,本实施例提供了一种双任务模型,所述双任务模型用于本申请所述的基于双任务模型的词语处理方法,包括编码器、实体识别模型和关系抽取模型,其中,实体识别模型与关系抽取模型共用一个前馈神经网络。
实体识别模型,是用于识别非结构化输入文本中的实体的模型,在本实施例中,实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量。
关系抽取模型,是用于检测、识别、抽取实体与实体之间语义关系的模型,在本实施例中,关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量;基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
本实施例提供的双任务模型,通过将关系抽取模型、实体识别模型进行有机结合,三者共用一个用于打分的前馈神经网络,可以实现关系抽取模型、实体识别模型彼此之间的信息共享,提高上述关系抽取模型、实体识别模型的正确率和召回率。
如图2所示,图2是示出了根据本申请一实施例的基于双任务模型的词语处理方法的步骤流程图,包括步骤S210至步骤S230。
S210、获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量。
其中,候选实体片段是由目标语句或目标段落、目标文章中的一个或多个词语组合成的词语集合,每一个词语均表示一个实体。具体地,可以通过对目标语句或目标段落、目标文章等进行分词处理,再在上述分词处理的结果中抽取一个或多个目标词语组合成词语集合,即得到候选实体片段。
例如,假设对目标语句进行分词处理后,得到分词处理结果A1-A10在内的10个词语,在上述分词处理结果中进行抽取得到A1-A6组成的词语集合,并将上述词语集合作为候选实体片段。
在实际应用中,可以将候选实体片段输入至编码器中进行编码处理,生成候选实体片段编码向量。
在本实施例中,编码器包括双向lstm、预训练的bert模型、cnn网络及其任意组合。
优选地,首先通过预训练的bert模型对包含若干候选实体片段的语句进行编码处理后得到该语句词级别的特征向量,通过cnn网络进行编码处理后得到该语句字符级别的特征向量,将上述词级别的特征向量以及字符级别的特征向量进行拼接,得到拼接向量,再将上述拼接向量通过双向lstm网络进行编码处理后得到带有上下文特征的特征向量,最后基于抽取得到的候选实体片段利用注意力机制计算得到每个候选实体片段编码向量,候选实体片段的编码向量可以通过下式表示:
其中,gi表示候选实体片段的编码向量,xSTART(i) *、xEND(i) *表示候选实体片段起止位置的向量,Φ(i)表示额外的特征,表示基于注意力机制对每一个候选实体片段中的词进行计算得到的结果,的具体计算过程如下:
具体地,t表示候选实体片段,i表示候选实体片段中的词,公式(2)表示候选实体片段中每一个词对应的编码向量xt *由经过双向lstm的正向传播输出的向量(ht,1)以及反向传播输出的向量(ht,-1)组成,公式(3)表示候选实体片段t的参数α通过其参数w与前馈神经网络对该候选实体片段打出的分数点乘得到,公式(4)表示候选实体片段中每一个词的权重ai,t基于其所在的候选实体片段的参数α以及该词在候选实体片段的总参数得到,公式(5)表示候选实体片段中每一个词对应的编码向量该词在该候选实体片段中的权重参数ai,t与该候选实体片段编码向量xt得到。
本实施例通过获取候选实体片段,并对候选实体片段进行编码处理,以为后续其他任务的执行做好准备,提高后续任务执行的效率。
S220、通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量。
需要说明的是,在本实施例中,实体识别模型与关系抽取模型共用一个用于打分的前馈神经网络。
具体地,所述步骤S220还可以包括步骤S221至步骤S222。
S221、将所述候选实体片段编码向量输入至实体识别模型中,通过所述前馈神经网络对所述候选实体片段编码向量进行打分。
其中,每一个候选实体片段编码向量的分数均由基础分数(Mention score)和分类分数(classifier score)组成,并且上述基础分数和分类分数均通过前馈神经网络打分得到。候选实体片段编码向量的分数可以为基础分数与分类分数之和、平均值、加权平均值等均可,本申请对此不做限制。
前馈神经网络是利用深度学习的原理对候选实体片段编码向量进行打分的,具体而言,通过利用前馈神经网络对候选实体片段编码向量再次进行计算或编码,并映射出相应的分数,即获得候选实体片段编码向量的分数。需要说明的是,前馈神经网络对于分数的映射可以通过后续任务的执行、损失值的计算、梯度的回传等不断进行调整。候选实体片段编码向量的分数可以为十分制分数、百分制分数、千分制分数等,本申请对此不做限制。
本实施例通过对候选实体片段编码向量进行打分,进而进行实体识别处理,可以提高实体识别处理的准确性,提高实体识别模型的效果。
S222、基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,获得所述候选实体片段编码向量的分类标签,并对所述候选实体片段编码向量进行剪枝,获得识别剪枝编码向量。
在实际应用中,基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,获得每一个候选实体片段编码向量的分类标签,进而可以获得每一个候选实体片段编码向量所属的类别,可以按照分类结果剪枝掉其中一个或几个类别中一定比例的候选实体片段编码向量,并将剩余的候选实体片段编码向量作为识别剪枝编码向量,也可以剪枝掉分数小于预设阈值的候选实体片段编码向量,并将剩余的候选实体片段编码向量作为识别剪枝编码向量,本申请对此不做限制。
例如,假设候选实体片段编码向量共存在第一类、第二类……第n类等n个类别,其中第n类为负例,即不属于前面类别的所有候选实体片段编码向量均归为第n类,经过分类处理后,m个候选实体片段编码向量中的m1个属于第一类,m2个属于第二类……mn个属于第n类(m1+m2+……mn=m),那么可以根据以下三种方式对上述候选实体片段编码向量进行剪枝:(1)第一类剪枝掉p1%的候选实体片段编码向量,第二类剪枝掉p2%的候选实体片段编码向量……第n类剪枝掉pn%的候选实体片段编码向量,并将剩余的候选实体片段编码向量作为识别剪枝编码向量,其中,p1、p2……pn的数值既可以相同,也可以不同;(2)第一类、第二类……第n-1类的候选实体片段编码向量不进行剪枝,第n类剪枝掉pn%的候选实体片段编码向量,并将剩余的候选实体片段编码向量作为识别剪枝编码向量;(3)将其中的一类或多类的分数小于预设阈值的候选实体片段编码向量剪枝掉,并将剩余的候选实体片段编码向量作为识别剪枝编码向量,其中分数的预设阈值可以视具体情况确定,本申请对此不做限制。
在本实施例中,对候选实体片段编码向量进行分类处理和剪枝处理,有助于提高后续关系抽取模型输入编码向量的质量,为关系抽取任务的执行打下基础。
S230、将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
具体地,所述步骤S230还可以包括步骤S231至步骤S232。
S231、通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量。
具体地,可以将所述识别剪枝编码向量输入至所述关系抽取模型中,通过所述前馈神经网络对所述识别剪枝编码向量进行打分,得到所述识别剪枝编码向量的分数,再将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。
其中,每一个识别剪枝码向量的分数均由基础分数和分类分数组成,并且上述基础分数和分类分数均通过前馈神经网络打分得到。
本实施例通过对识别剪枝编码向量进行打分,在实体识别任务的基础上对识别剪枝编码向量进一步进行处理,有助于进一步为后续关系抽取任务的执行做好铺垫。
S232、基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
具体地,所述步骤S232还可以包括步骤S2321至步骤S2323。
S2321、基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量。
具体地,可以将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;基于所述关系抽取编码向量和所述第一标签向量,获得第一初始关系对编码向量。
在实际应用中,每一个第一初始关系对编码向量均由两个关系抽取编码向量以及两个关系抽取编码向量对应的分类标签编码向量组成,换而言之,可以将候选实体片段中两个词语的关系抽取编码向量以及两个词语各自的第一标签向量进行拼接,获得第一初始关系对编码向量,如下所示:
span_pair_embeddings=torch.cat([span1_embeddings,span2_embeddings,span1_embeddings*span2_embeddings,span1_label_embedding,span2_label_embedding],-1)。
其中,torch.cat是用于将两个或多个向量拼接在一起的函数,span_pair_embeddings表示第一初始关系对编码向量,span1_embeddings表示关系抽取编码向量1,span2_embeddings表示关系抽取编码向量2,span1_label_embedding表示关系抽取编码向量1的标签向量,span2_label_embedding表示关系抽取编码向量2的标签向量。
需要说明的是,分类标签属于候选实体片段的特征信息的一种,除此之外,在生成第一初始关系对编码向量时还可以结合其他类型的特征信息,如距离等,可视具体情况而定,本申请对此不做限制。
例如,可以将候选实体片段中两个词语的关系抽取编码向量、两个词语各自的第一标签向量以及两个词语之间的距离特征向量进行拼接,获得第一初始关系对编码向量,如下所示:
span_pair_embeddings=torch.cat([span1_embeddings,span2_embeddings,span1_embeddings*span2_embeddings,antecedent_distance_embeddings,span1_label_embedding,span2_label_embedding],-1)。
其中,torch.cat是用于将两个或多个向量拼接在一起的函数,span_pair_embeddings表示第一初始关系对编码向量,span1_embeddings表示关系抽取编码向量1,span2_embeddings表示关系抽取编码向量2,antecedent_distance_embeddings表示关系抽取编码向量1与关系抽取编码向量2的距离特征向量,span1_label_embedding表示关系抽取编码向量1的标签向量,span2_label_embedding表示关系抽取编码向量2的标签向量。
再例如,第一初始关系对编码向量的具体生成方法包括:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量在所述候选实体片段中的位置,确定该任意两个关系抽取编码向量之间的语义向量;
基于任意两个所述关系抽取编码向量、该任意两个关系抽取编码向量之间的语义向量以及每个所述关系抽取编码向量对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
具体地,确定该任意两个关系抽取编码向量之间的语义向量,包括:确定该任意两个关系抽取编码向量之间的多个词向量;将任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理,得到对应的语义向量。
在具体应用中,对于候选实体片段[w1,w2,…,wx-1,wx],[w1,w2]是关系抽取编码向量span1,[wx-1,wx]是关系抽取编码向量span2,那么其中的[w3,…,wx-2]为该任意两个关系抽取编码向量span1和span2之间的词向量,将两个关系抽取编码向量span1和span2之间的词向量[w3,…,wx-2]进行池化处理或者注意力处理,得到对应的语义向量,从而可以增加第一初始关系对编码向量的语义信息,增强第一初始关系对编码向量的表达能力。
对于池化处理,需要说明的是,对于词向量[w3,…,wx-2],如果全部保留这些信息就会有信息冗余,增加了计算难度,这时候池化处理就相当于降维操作,以实现对向量进行压缩,保留主要特征。池化处理是在一个小矩阵区域内,取该区域的最大值或平均值来代替该区域,从而得到最终的语义向量。该小矩阵的大小可以根据实际需要而设置。
对于注意力处理,计算公式如前述公式(3)~(5)所示,在此便不再赘述。
具体地,第一初始关系对编码向量的计算公式如下:
span_pair_embeddings=torch.cat([span1_embeddings,span2_embeddings,span1_embeddings*span2_embeddings,segment_info,span1_label_embedding,span2_label_embedding],-1)。
其中,torch.cat是用于将两个或多个向量拼接在一起的函数,span_pair_embeddings表示第一初始关系对编码向量,span1_embeddings表示关系抽取编码向量1,span2_embeddings表示关系抽取编码向量2,segment_info表示关系抽取编码向量1与关系抽取编码向量2之间的词向量,span1_label_embedding表示关系抽取编码向量1的标签向量,span2_label_embedding表示关系抽取编码向量2的标签向量。
需要说明的是,在计算span_pair_embeddings的过程中,并非所有的词之间都可以产生关系,例如在一段文字里,隔了很远的词之间基本就不会产生关系了。所以本实施例中就设定了一个距离阈值,若span1和span2之间的距离超过阈值,便直接将该span1和span2的span_pair_embeddings进行剪枝。距离阈值的数值可以根据实际需求而设置,例如设置距离阈值为60个词单元。
可选地,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量,包括:根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系,分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。
也即,在生成span_pair_embeddings的时候,既生成span_pair_embedding12,又生成span_pair_embedding21。
需要说明的是,正反向语义关系和具体的排列顺序并不一定一致。这里假设关系是一种不对称关系,认为正向语义关系是正确的和符合标注的关系,反向语义关系是不正确的和不符合数据标注的关系。比如method is used for task,那么[span1(method)span2(task)]认为是正向语义关系的正确关系,顺序反过来就是错误的反向关系。这个时候span1和span2正好是先后的排列顺序。
但是换个标注的话,如果是part of,在句子有可能的表达是1)span1 is part ofspan2;2)span 1includes span2。
这两个句子中span对都会标注为一种part of的关系,但是1)中正向语义关系就是[span1 span2],而2)中的正向语义关系则是[span2 span1]。
本实施例基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量,有助于提高关系抽取任务的执行效率和效果。
S2322、对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
具体地,可以通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数;对所述第一初始关系对编码向量进行分类预测处理,获得所述第一初始关系对编码向量的类别;基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
在实际应用中,可以通过softmax函数确定第一初始关系对编码向量的类别,softmax函数的公式如下所示:
其中,Si表示第i个第一初始关系对编码向量对应的softmax值;i代表第i个第一初始关系对编码向量;j代表第一初始关系对编码向量的总个数。
具体地,第一初始关系对编码向量的类别,即为其中两个词之间关系的类别,在实际应用中还可以基于第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝,既可以剪枝掉其中一类或多类的一定比例的第一初始关系对编码向量,也可以剪枝掉分数小于预设阈值的第一初始关系对编码向量,可视具体情况确定,本申请对此不做限制。
可选地,在所述分类标签为方向性分类标签的情况下,是有明显方向性的标签属性,比如used for由于通常标注数据会是[method(头实体标签)、used for(关系标签)、task(尾实体标签)],而不会是反过来。所以根据这个分类评分,依照类别分别按预设比例进行剪枝,取得组成高分的pair span-embedding的时候,需要特别对比pair span-embedding12和pair span-embedding21在当前分类下的分数。如果pair span-embedding12在当前的类别比较高,那么pair span-embedding21就应该是一个负例,所以要强制给一个很低的分数。实际应用阶段,该分数可以设置为0,也可以设置为其他分数。
具体地,通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数,包括:通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分,并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。
本实施例中,预设阈值可以设置为多个数值,例如为0,也可以设置为其他数值。
本实施例通过对第一初始关系对编码向量进行打分、分类和剪枝,获得第一关系对编码向量,有助于进一步提高关系抽取任务的执行效率和效果。
S2323、通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,获得关系抽取结果,基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
具体地,关系抽取处理的过程包括打分与分类预测处理,换而言之,通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,即完成关系抽取处理,获得关系抽取结果,并确定词语之间的关系。
本实施例通过对第一关系对编码向量进行关系抽取处理,确定词语之间的关系,可以关系抽取任务的准确率,进而有效提高词语关系确定的准确率。
本实施例提供的基于双任务模型的词语处理方法,首先通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量,以减少候选实体片段编码向量中的负例,再通过关系抽取模型进行关系抽取处理,并基于结果对识别剪枝编码向量再次进行剪枝,获得关系抽取编码向量,实现了基于不同的任务需求对识别剪枝编码向量的进一步筛选,其中,基于关系抽取编码向量生成第一关系对编码向量,可以进一步地、更深层次的加强关系抽取模型对候选实体片段的理解,为关系抽取任务的执行提供基础,最终分别进行关系抽取处理,并基于上述处理结果确定词语之间的关系,可以有效提高词语处理的准确性。
本实施例提供的基于双任务模型的词语处理方法,实现了关系抽取模型、实体识别模型的有机结合,实现了关系抽取任务、实体识别任务的有机结合,实现了上述任务中信息的共享,可以有效提高关系抽取任务和实体识别任务的正确率、召回率,有效提高词语关系确定基于双任务模型的词语处理的准确率。
其次,本实施例中通过根据任意两个关系抽取编码向量在候选实体片段中的语义关系,分别获得任意两个关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量,从而在获取关系抽取结果的过程中,引入了语义关系的考量,从而可以使关系抽取结果更加准确。
参见图3,本实施例提供一种基于双任务模型的词语处理方法,包括下述步骤S310~S314:
S310、获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量。
其中,步骤S310与前述实施例中的步骤S210相同,关于步骤S310的具体解释参见前述实施例的详述,在此便不再赘述。
S311、将所述候选实体片段编码向量输入至实体识别模型中,通过所述前馈神经网络对所述候选实体片段编码向量进行打分。
S312、基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,获得所述候选实体片段编码向量的分类标签,并对所述候选实体片段编码向量进行剪枝,获得识别剪枝编码向量。
其中,步骤S311与步骤S312与前述实施例中的步骤S221~S222相同,关于步骤S311与步骤S312的具体解释参见前述实施例的详述,在此便不再赘述。
S313、通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量。
S314、基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
具体地,步骤S314包括下述步骤S341~S343:
S341、基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量。
S342、对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
S343、通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,获得关系抽取结果,基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
其中,步骤S313与步骤S314与前述实施例中的步骤S231~S232相同,关于步骤S313与步骤S314的具体解释参见前述实施例的详述,在此便不再赘述。
如图4所示,本实施例提供一种双任务模型的训练方法,包括步骤S410至步骤S440。
S410、获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签,并基于每个样本候选实体对的样本候选实体生成样本候选实体片段编码向量。
具体内容可以参见上述实施例,在此不再赘述。
S420、通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量。
具体地,假设共存在n类的样本候选实体片段(n≥1,且n为整数),那么不属于上述n个类别的样本候选实体片段均属于负例,基于所述样本候选实体片段编码向量的分数对所述样本候选实体片段编码向量进行分类处理,获得每一个样本候选实体片段编码向量的分类标签,进而可以获得每一个样本候选实体片段编码向量所属的类别,按照预设的比例剪枝掉负例中的部分样本候选实体片段编码向量后,剩余的其他样本候选实体片段编码向量即为识别剪枝编码向量。其中,负例中被剪枝掉的样本候选实体片段编码向量的比例可以视具体情况而定,如六分之一、五分之一等均可,本申请对此不做限制。
本实施例通过对样本候选实体片段编码向量进行分类处理,并剪枝掉负例中的部分编码向量,可以使模型同时对于呈适当比例的正例和负例进行学习,即从正确和错误两个方面同时进行学习,有助于提高模型训练效果。
S430、将所述样本识别剪枝编码向量输入至关系抽取模型进行处理,获得第一样本关系对编码向量。
具体地,所述步骤S430包括:通过关系抽取模型对所述样本识别剪枝编码向量进行打分,并基于分值对所述样本识别剪枝编码向量进行剪枝,获得样本关系抽取编码向量,基于所述样本关系抽取编码向量生成第一样本关系对编码向量。
具体内容可以参见上述实施例,在此不再赘述。
S440、分别基于样本识别剪枝编码向量、第一样本关系对编码向量确定所述实体识别模型、所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
具体地,基于样本识别剪枝编码向量的分值与样本识别剪枝编码向量的分类标签利用交叉熵损失函数计算实体识别模型的损失值;
基于第一样本关系对编码向量的分值与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值。
例如,在实体识别模型训练过程中,经过交叉熵计算得到的一组损失值的结果可能是[-0.0000,-6.8651,-9.8858,-9.3611,-9.4160,-8.8986,-10.0036],其中,7个数分别对应着数字0~6,每个数字代表一个分类标签。
通过F.softmax变成分类概率[9.9856e-01,1.0421e-03,5.0818e-05,8.5878e-05,8.1292e-05,1.3638e-04,4.5174e-05],最后取最大值就是最终损失值。
交叉熵损失函数的公式如下所示:
交叉熵是表示两个概率分布p、q的差异,其中p表示真实分布即样本识别剪枝编码向量、第一样本关系对编码向量对应的分类标签的编码向量,q表示非真实分布即样本识别剪枝编码向量、第一样本关系对编码向量,H(p,q)表示损失值。
可选地,基于第一样本关系对编码向量与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值,包括:
在所述分类标签为对称关系标签的情况下,将所述第一样本关系对编码向量的两个样本关系抽取编码向量进行反向排列,生成反向第一样本关系对编码向量;
将所述第一样本关系对编码向量以及所述分类标签、所述反向第一样本关系对编码向量以及所述分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。
在一种具体使用场景下,在分类标签为对称关系标签的情况下,比如conjunction,在标注的时候通常是(span1,span2,conjunction),所以可以做一个数据增强,增加反向第一样本关系对编码向量(span2,span1)得到(span2,span1,conjunction)后再后续计算损失值。
具体地,分别基于实体识别模型、关系抽取模型的损失值,自模型的输出层开始至输入层为止,反向调整模型中每一层神经元节点的权重值,对模型进行训练。
本实施例所述的双任务模型的训练方法,在训练过程中先将关系抽取任务、实体识别任务进行有机结合,再分别对关系抽取模型和实体识别模型进行训练,可以有效提高模型训练的效果,提高关系抽取模型和实体识别模型的性能。
如图5所示,本实施例公开了一种基于双任务模型的词语处理装置,包括:
实体片段获取模块510,被配置为获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;
实体识别剪枝模块520,被配置为通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;
关系抽取处理模块530,被配置为将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
可选地,所述关系抽取处理模块530,进一步被配置为:
通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量;
为基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
可选地,实体识别模型与关系抽取模型共用一个用于打分的前馈神经网络;
所述实体识别剪枝模块520,进一步被配置为:
将所述候选实体片段编码向量输入至实体识别模型中,通过所述前馈神经网络对所述候选实体片段编码向量进行打分;
基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,并基于所述分类处理的结果对所述候选实体片段编码向量进行剪枝,获得识别剪枝编码向量。
可选地,所述关系抽取模型与所述实体识别模型共用一个用于打分的前馈神经网络;
所述关系抽取处理模块530,进一步被配置为:
将所述识别剪枝编码向量输入至所述关系抽取模型中,通过所述前馈神经网络对所述识别剪枝编码向量进行打分,得到所述识别剪枝编码向量的分数;
将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量;
对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数;
对所述第一初始关系对编码向量进行分类预测处理,获得所述第一初始关系对编码向量的类别;
基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量及其对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量在所述候选实体片段中的位置,确定该任意两个关系抽取编码向量之间的语义向量;
基于任意两个所述关系抽取编码向量、该任意两个关系抽取编码向量之间的语义向量以及每个所述关系抽取编码向量对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
确定该任意两个关系抽取编码向量之间的多个词向量;
将所述任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理,得到对应的语义向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系,分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。
可选地,所述关系抽取处理模块530,进一步被配置为:
通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分,并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。
可选地,所述关系抽取处理模块530,进一步被配置为:通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,获得关系抽取结果。
本实施例提供的基于双任务模型的词语处理装置,实现了关系抽取模型、实体识别模型的有机结合,实现了关系抽取任务、实体识别任务的有机结合,实现了上述任务中信息的共享,可以有效提高关系抽取任务和实体识别任务的正确率、召回率,有效提高词语关系确定基于双任务模型的词语处理的准确率。
如图6所示,本实施例公开了一种双任务模型的训练装置,包括:
样本获取模块610,被配置为获取至少两个样本候选实体片段以及每个所述样本候选实体对的分类标签,并基于所述样本候选实体片段生成样本候选实体片段编码向量;
样本识别模块620,被配置为通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量;
样本处理模块630,被配置为将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量;
模型训练模块640,被配置为分别基于样本识别剪枝编码向量、第一样本关系对编码向量确定所述实体识别模型和所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
可选地,所述样本处理模块630进一步被配置为:
将所述样本识别剪枝编码向量输入至所述关系抽取模型中,通过所述关系抽取模型对所述样本识别剪枝编码向量进行打分,并基于分值对所述样本识别剪枝编码向量进行剪枝,获得样本关系抽取编码向量,基于所述样本关系抽取编码向量生成第一样本关系对编码向量。
可选地,模型训练模块640,进一步被配置为:
基于样本识别剪枝编码向量的分值与样本识别剪枝编码向量的分类标签利用交叉熵损失函数计算实体识别模型的损失值;
基于第一样本关系对编码向量的分值与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值。
可选地,所述第一样本关系对编码向量包括两个样本关系抽取编码向量,模型训练模块640,进一步被配置为:
在所述分类标签为对称关系标签的情况下,将所述第一样本关系对编码向量的两个样本关系抽取编码向量进行反向排列,生成反向第一样本关系对编码向量;
将所述第一样本关系对编码向量以及所述分类标签、所述反向第一样本关系对编码向量以及所述分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。
本申请提供的双任务模型的训练装置,在训练过程中首先将关系抽取任务、实体识别任务进行有机结合,再分别对关系抽取模型和实体识别模型进行训练,可以有效提高模型训练的效果,提高关系抽取模型和实体识别模型的性能。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
如图7所示,图7是示出了根据本说明书一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器770和处理器720。处理器720与存储器770通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.77无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。所述计算设备可以执行上述任一实施例所述的方法。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述基于双任务模型的词语处理方法或双任务模型的训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于双任务模型的词语处理方法或双任务模型的训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于双任务模型的词语处理方法或双任务模型的训练方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (20)
1.一种基于双任务模型的词语处理方法,其特征在于,包括:
获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;
通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;
将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
2.根据权利要求1所述的方法,其特征在于,将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系,包括:
通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,获得关系抽取编码向量;
基于所述关系抽取编码向量生成第一关系对编码向量,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。
3.根据权利要求1所述的方法,其特征在于,所述实体识别模型与所述关系抽取模型共用一个用于打分的前馈神经网络;
所述通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量,包括:
将所述候选实体片段编码向量输入至实体识别模型中,通过所述前馈神经网络对所述候选实体片段编码向量进行打分;
基于所述候选实体片段编码向量的分数对所述候选实体片段编码向量进行分类处理,获得所述候选实体片段编码向量的分类标签,并对所述候选实体片段编码向量进行剪枝,获得识别剪枝编码向量。
4.根据权利要求2所述的方法,其特征在于,所述关系抽取模型与所述实体识别模型共用一个用于打分的前馈神经网络;
通过关系抽取模型对所述识别剪枝编码向量进行打分,并基于分值对所述识别剪枝编码向量进行剪枝,包括:
将所述识别剪枝编码向量输入至所述关系抽取模型中,通过所述前馈神经网络对所述识别剪枝编码向量进行打分,得到所述识别剪枝编码向量的分数;
将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述关系抽取编码向量生成第一关系对编码向量,包括:
基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量;
对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一初始关系对编码向量进行分类预测处理,基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量,包括:
通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数;
对所述第一初始关系对编码向量进行分类预测处理,获得所述第一初始关系对编码向量的类别;
基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝,获得第一关系对编码向量。
7.根据权利要求6所述的方法,其特征在于,所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量,包括:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量及其对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
8.根据权利要求6所述的方法,其特征在于,所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签,获得第一初始关系对编码向量,包括:
将所述关系抽取编码向量的分类标签进行编码处理,生成第一标签向量;
基于任意两个所述关系抽取编码向量在所述候选实体片段中的位置,确定该任意两个关系抽取编码向量之间的语义向量;
基于任意两个所述关系抽取编码向量、该任意两个关系抽取编码向量之间的语义向量以及每个所述关系抽取编码向量对应的所述第一标签向量,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。
9.根据权利要求8所述的方法,其特征在于,确定该任意两个关系抽取编码向量之间的语义向量,包括:
确定该任意两个关系抽取编码向量之间的多个词向量;
将所述任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理,得到对应的语义向量。
10.根据权利要求7或8所述的方法,其特征在于,获得任意两个所述关系抽取编码向量的第一初始关系对编码向量,包括:
根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系,分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。
11.根据权利要求10所述的方法,其特征在于,通过前馈神经网络对所述第一初始关系对编码向量进行打分,获得第一初始关系对编码向量的分数,包括:
通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分,并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。
12.根据权利要求2所述的方法,其特征在于,通过所述关系抽取模型对所述第一关系对编码向量进行关系抽取处理,获得关系抽取结果,包括:
通过所述关系抽取模型对所述第一关系对编码向量进行打分,并基于打分结果对所述第一关系对编码向量进行分类预测处理,获得关系抽取结果。
13.一种双任务模型的训练方法,其特征在于,包括:
获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签,并基于每个样本候选实体对的样本候选实体生成样本候选实体片段编码向量;
通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量;
将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量;
基于样本识别剪枝编码向量、第一样本关系对编码向量分别确定所述实体识别模型和所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
14.根据权利要求13所述的方法,其特征在于,将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量,包括:
将所述样本识别剪枝编码向量输入至所述关系抽取模型中,通过所述关系抽取模型对所述样本识别剪枝编码向量进行打分,并基于分值对所述样本识别剪枝编码向量进行剪枝,获得样本关系抽取编码向量,基于所述样本关系抽取编码向量生成第一样本关系对编码向量。
15.根据权利要求14所述的方法,其特征在于,分别基于样本识别剪枝编码向量和第一样本关系对编码向量确定所述实体识别模型和所述关系抽取模型的损失值,包括:
基于样本识别剪枝编码向量的分值与样本识别剪枝编码向量的分类标签利用交叉熵损失函数计算实体识别模型的损失值;
基于第一样本关系对编码向量的分值与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值。
16.根据权利要求15所述的方法,其特征在于,所述第一样本关系对编码向量包括两个样本关系抽取编码向量;
基于第一样本关系对编码向量与第一样本关系对编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值,包括:
在所述分类标签为对称关系标签的情况下,将所述第一样本关系对编码向量的两个样本关系抽取编码向量进行反向排列,生成反向第一样本关系对编码向量;
将所述第一样本关系对编码向量以及所述分类标签、所述反向第一样本关系对编码向量以及所述分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。
17.一种基于双任务模型的词语处理装置,其特征在于,包括:
实体片段获取模块,被配置为获取候选实体片段,并基于所述候选实体片段生成候选实体片段编码向量;
实体识别剪枝模块,被配置为通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得识别剪枝编码向量;
关系抽取处理模块,被配置为将所述识别剪枝编码向量输入至关系抽取模型中进行处理,确定所述候选实体片段中词语之间的关系。
18.一种双任务模型的训练装置,其特征在于,包括:
样本获取模块,被配置为获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签,并基于每个样本候选实体对的样本候选实体生成样本候选实体片段编码向量;
样本识别模块,被配置为通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理,获得样本识别剪枝编码向量;
样本处理模块,被配置为将所述样本识别剪枝编码向量输入至关系抽取模型中进行处理,获得第一样本关系对编码向量;
模型训练模块,被配置为分别基于样本识别剪枝编码向量、第一样本关系对编码向量分别确定所述实体识别模型和所述关系抽取模型的损失值,并对所述实体识别模型和所述关系抽取模型进行训练。
19.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-16任意一项所述方法的步骤。
20.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-16任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010507279.8A CN113761921A (zh) | 2020-06-05 | 2020-06-05 | 一种基于双任务模型的词语处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010507279.8A CN113761921A (zh) | 2020-06-05 | 2020-06-05 | 一种基于双任务模型的词语处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761921A true CN113761921A (zh) | 2021-12-07 |
Family
ID=78785176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010507279.8A Pending CN113761921A (zh) | 2020-06-05 | 2020-06-05 | 一种基于双任务模型的词语处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761921A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件系统有限公司 | 一种关系提取方法、装置、及存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
-
2020
- 2020-06-05 CN CN202010507279.8A patent/CN113761921A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件系统有限公司 | 一种关系提取方法、装置、及存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111159407A (zh) * | 2019-12-30 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 训练实体识别和关系分类模型的方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
刘文如: "《零基础入门Python深度学习》", 31 May 2020, 机械工业出版社, pages: 157 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609899B (zh) | 一种基于改进bert模型的特定目标情感分类方法 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN112818691A (zh) | 命名实体识别模型训练方法及装置 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN109710953B (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN111339780B (zh) | 一种基于多任务模型的词语处理方法及装置 | |
CN112800768A (zh) | 一种嵌套命名实体识别模型的训练方法及装置 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113159187B (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN110825843A (zh) | 适于金融领域的训练方法、问答方法、装置及存储介质 | |
CN114090776A (zh) | 文档解析方法、系统及装置 | |
CN110852089A (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN114077655A (zh) | 一种答案抽取模型的训练方法及装置 | |
CN116956816A (zh) | 文本处理方法、模型训练方法、装置及电子设备 | |
CN113792121B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN113761921A (zh) | 一种基于双任务模型的词语处理方法及装置 | |
CN114722817A (zh) | 事件处理方法及装置 | |
CN113761922A (zh) | 一种基于多任务模型的词语处理方法及装置 | |
CN114138947A (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |