CN111368545B - 一种基于多任务学习的命名实体识别方法和装置 - Google Patents
一种基于多任务学习的命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN111368545B CN111368545B CN202010131105.6A CN202010131105A CN111368545B CN 111368545 B CN111368545 B CN 111368545B CN 202010131105 A CN202010131105 A CN 202010131105A CN 111368545 B CN111368545 B CN 111368545B
- Authority
- CN
- China
- Prior art keywords
- network
- main task
- subtask
- task
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 74
- 238000000605 extraction Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 2
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种基于多任务学习的命名实体识别方法,包括:根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务;将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练,其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果;将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果。
Description
技术领域
本文涉及命名实体识别(Named Entity Recognition,简称NER)技术领域,尤指一种基于多任务学习的命名实体识别方法、装置和计算机可读存储介质。
背景技术
命名实体识别任务是自然语言处理领域的经典任务和热门课题,在自然语言处理技术快速发展的近数十年来一直得到学术界和工业界的广泛关注。
得益于近年来深度学习技术的发展以及深度学习技术与传统基于统计技术的结合,命名实体识别技术已经发展到一个较为成熟的状态。当前命名实体识别技术面对简单任务如公司名识别、人名识别、地明识别等场景,在适当数据量的前提下其准确率、召回率等指标已经可以达到较高的水平,达到工业应用的指标。但当前命名实体识别技术发展仍有不足,如当前模型与方法对复杂命名实体识别任务效果较差。
复杂命名实体识别在命名实体识别的基础上要求模型能够识别出更细粒度的命名实体,识别目标不仅需要目标文本本身特征还需要目标文本上下文特征,此类任务往往难度较大,抽取结果也更具价值。例如,相比识别新闻文本中的所有公司实体,精确识别新闻文本所述事件的事件主体无疑具有更高实用价值。
相关技术虽然提出了一些复杂命名实体识别的方案,但由于处理能力不足,实现效果较差。
发明内容
本申请提供了一种基于多任务学习的命名实体识别方法、装置和计算机可读存储介质,以提升处理复杂命名实体识别任务的能力。
本申请实施例提供了一种基于多任务学习的命名实体识别方法,包括:
根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务;
将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练,其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果;
将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果。
在一实施例中,所述根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,包括:
将主任务设置为与所述原任务一致;
确定所述主任务的抽取目标;
归纳所述抽取目标具有的目标属性;
根据所述目标属性确定所述子任务。
在一实施例中,所述命名实体识别网络模型还包括共享网络,
所述共享网络接收输入的文本,进行注意力调整后输出注意力调整矩阵至所述子任务网络和主任务网络。
在一实施例中,所述共享网络包括文本嵌入层和多头注意力编码层,其中,
所述文本嵌入层接收输入的文本,将所述文本中的字符转换为字符向量;
所述多头注意力编码层将所述字符向量进行多角度的注意力调整,输出注意力调整矩阵至所述子任务网络和主任务网络。
在一实施例中,所述文本嵌入层通过双向解码器表征模型将所述文本中的字符转换为与上下文相关的字符向量。
在一实施例中,所述子任务网络包括子任务全连接层和子任务条件随机场层,其中
所述子任务全连接层接收所述注意力调整矩阵,按照所述子任务调整注意力,输出子任务注意力调整向量;
所述子任务条件随机场层根据所述子任务注意力调整向量确定每个字符对应的每个标签的概率,得到每个字符对应的概率分布向量,将所述概率分布向量作为子任务预测信息发送至所述主任务网络。
在一实施例中,所述子任务条件随机场层还根据所述概率分布向量确定并输出子任务预测结果。
在一实施例中,所述主任务网络包括主任务全连接层、拼接层和主任务条件随机场层,其中
所述主任务全连接层接收所述注意力调整矩阵,按照所述主任务调整注意力,输出主任务注意力调整向量;
所述拼接层获取所述子任务网络发送的概率分布向量,将所述主任务注意力调整向量与概率分布向量进行拼接,输出拼接向量;
所述主任务条件随机场层根据所述拼接向量确定并输出主任务预测结果。
本申请实施例还提供一种基于多任务学习的命名实体识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于多任务学习的命名实体识别方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述基于多任务学习的命名实体识别方法。
与相关技术相比,本申请包括:根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务;将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练,其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果;将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果。本申请实施例采用了串行的多任务网络结构,相比其他多任务网络结构,串行的网络结构在训练时更容易收敛,实际训练更简单;而且,通过子任务辅助实现主任务,能够有效提升模型的准确率和召回率。
在一示例性的实施例中,命名实体识别网络模型采用共享网络,使得网络结构具有更少的网络参数,因而在实际使用中,本申请实施例的网络运行速度更快。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的基于多任务学习的命名实体识别方法的流程图;
图2为本申请实施例的步骤101的流程图;
图3为本申请实施例的命名实体识别网络模型;
图4为本申请另一实施例的命名实体识别网络模型;
图5为本申请实施例的文本嵌入层的示意图;
图6为本申请实施例的标准化点乘注意力的网络结构示意图;
图7为经典多头注意力网络结构的示意图;
图8为本申请实施例的多任务多头注意力的网络结构示意图;
图9为本申请实施例的NER任务的标签数据示例图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
相关技术中,复杂命名实体识别主要采用如下几种方案:
1、增加训练数据量
该方案不改变命名实体识别模型而是通过不断增加训练数据集以期能够实现样本空间的收敛。
此类方法成本往往较高且效果较差。一方面,增加训练数据集需要付出更多的数据标注成本,同时标注数据需要时间这可能会导致任务进度较慢。另一方面,简单的增加训练数据往往无法有效解决问题,数据的增加无法对模型的能力带来根本性的提升。
2、分步识别
该方案通过拆解当前复杂任务为多个子任务(步骤),使用多个模型串行的执行子任务从而实现原任务。
该类方法具有明显的缺点:首先,多个子任务使用独立的模型,这使得模型系统整体变复杂,在工程实现上会导致系统响应时间明显增长;其次,使用多个模型分步解决子任务的方案使得任务整体变得割裂,无法实现信息在子任务之间的双向传递,最终导致模型效果上限较低。
3、多任务识别
该方法同样将任务拆解为多个子任务,然后使用多任务学习框架处理多个子任务。
多任务学习框架通过让多个子任务共享部分网络结构使得网络在建模数据特征时能够同时考虑多个子任务。共享的网络结构使得该方案解决了分步识别中方案的模型整体复杂度问题,但仍然无法解决多个子任务之间信息交流的问题,各子任务网络拥有独自的预测误差,并根据误差分别优化网络参数,子任务网络之间无法沟通。
本申请实施例提出一种复杂命名实体识别的方法,为完成复杂命名实体识别任务,首先对原任务进行归纳,引入难度较低的辅助识别任务(子任务),然后在一个串行的多任务神经网络模型下同时完成子任务和原任务最终实现复杂命名实体识别。本申请实施例提出的串行多任务网络结构能够有效增加子任务之间的信息传递进而提升模型最终效果。
本申请实施例具有以下特点:
1、效果优,该方法具有较高的识别准确率、召回率
2、易拟合,串行的网络结构使得模型相对其他多任务架构更易拟合
3、运算量较低,多任务框架相比两任务等解决方案具有更少的模型参数,因而模型具有更小的运算量
如图1所示,本申请实施例提出一种基于多任务学习的命名实体识别方法,包括:
步骤101,根据命名实体识别的原任务生成一个主任务以及一个或多个子任务。
其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务。
其中,子任务也称为辅助任务,是指抽取难度较低,且抽取目标完全包含原任务的命名实体识别任务。辅助任务本身较为简单,能够较为轻松获得较好的抽取结果,同时辅助任务结果能够为原任务提供有用信息,当网络结构可以有效利用辅助任务信息时,可以有效提高原任务准确率。
如图2所示,在一实施例中,步骤101包括:
步骤201,将主任务设置为与所述原任务一致。
以新闻文本的事件主体抽取任务为例,新闻文本事件主体抽取是指抽取新闻文本中所报道事件的事件主体,则该新闻文本的事件主体抽取任务就是主任务。
步骤202,确定所述主任务的抽取目标。
例如,新闻文本的事件主体抽取任务的抽取目标就是新闻文本中所报道事件的事件主体。
步骤203,归纳所述抽取目标具有的目标属性。
其中,由于新闻文本的事件主体可能是人或组织机构,所以新闻文本中所报道事件的事件主体的目标属性包括人或组织机构。
在一实施例中,可以判断以目标属性为抽取目标是否任务难度更低,该判断可以采用人工判断的方式。从上例看,以人、组织机构为抽取目标的抽取任务比原任务要简单。
步骤204,根据所述属性确定所述子任务。
其中,新闻文本人名抽取和新闻文本组织机构抽取可以作为子任务。
下表以新闻文本事件主体抽取为例给出确定子任务的过程演示:
步骤102,将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练。
其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果。
本申请实施例中,命名实体识别网络模型为深度学习的神经网络模型,该网络结构整体为一个多任务学习架构。本申请实施例采用了串行的多任务网络结构,相比其他多任务网络结构,串行的网络结构在训练时更容易收敛,实际训练更简单;而且,通过子任务辅助实现主任务,能够有效提升模型的准确率和召回率。
参照图3,所述命名实体识别网络模型还包括共享网络,所述共享网络接收输入的文本,进行注意力调整后输出注意力调整矩阵至所述子任务网络和主任务网络。
多任务学习网络架构通过令多个任务共享部分网络结构使得共享的网络结构在参数优化时能够同时考虑多个下游任务。子任务和主任务作为学习任务共同参与模型训练。图3中只展示了有一个子任务时的网络结构,当子任务为多个时,每个子任务各自拥有一个子任务网络,如图4所示。
参照图3,在一实施例中,所述共享网络包括文本嵌入层和多头注意力编码层,其中,
所述文本嵌入层接收输入的文本,将所述文本中的字符转换为字符向量。当该层网络结构得到充分优化时,该字符向量表示字符在特定语义空间中的位置。共享该层网络结构使得模型整体在进行文本嵌入时能够同时考虑多个任务,减少文本嵌入层参数学习偏差,得到的每个字符的向量更接近该字符在语义空间中的真实位置。
在一实施例中,所述文本嵌入层通过BERT(Bidirectional EncoderRepresentation from Transformers,双向解码器表征)模型将所述文本中的字符转换为与上下文相关的字符向量。
使用BERT模型作为文本嵌入层的具体实现,相比传统文本嵌入方法如word2vec等,BERT在对文本中的每个字符做嵌入时同时考虑该字符的上文和下文,同一字符在不同上下文环境下具有不同的嵌入结果。BERT的引入增强了整个深度学习网络的语义理解能力。图5为原始文本经过BERT文本嵌入操作得到文本字符向量示意。
所述多头注意力编码层将所述字符向量进行多角度的注意力调整,输出注意力调整矩阵至所述子任务网络和主任务网络。
多头注意力编码层是一种全局注意力网络,可以拆分为标准化点乘注意力机制和多头机制两部分,其中标准化点乘注意力使得各字符能够依据同句中其他字符向量适当调整本字符向量(注意力),网络结构如图6所示;其中,QKV为三个矩阵,矩阵值会在神经网络训练时更新。文本向量矩阵乘QKV后得到更新后的QKV矩阵,进入后续网络。通过Softmax函数可以将多分类的输出数值转化为相对概率。多头注意力机制将标准化点乘注意力过程重复多次,并将多次计算结果得到的向量进行拼接,这样做能够提供多套注意力方案。共享多头注意力层能够保证模型在学习多层注意力时同时考虑到了多个下游子任务。图7与图8分布展示了经典多头注意力网络结构与本申请实施例所用多任务多头注意力网络结构。经典多头注意力机制在向量拼接完成后使用一个线性映射层实现根据下游任务选择注意力;本申请实施例所有多任务多头注意力网络把注意力选择放在各任务网络结构中,同时把线性映射改为非线性的全连接网络。相比线性映射,非线性的全连接网络给注意力选择提供了更灵活的方案。
参照图3,在一实施例中,所述子任务网络包括子任务全连接层和子任务条件随机场层。所述子任务全连接层接收所述注意力调整矩阵,按照所述子任务调整注意力,输出子任务注意力调整向量。所述子任务条件随机场层根据所述子任务注意力调整向量确定每个字符对应的每个标签的概率,得到每个字符对应的概率分布向量,将所述概率分布向量作为子任务预测信息发送至所述主任务网络。所述子任务条件随机场层还可以根据所述概率分布向量确定并输出子任务预测结果。
也就是说,子任务条件随机场层可以有两种输出,其一,为每个字符对应各标签的概率,此时每个字符对应一个概率分布向量。该向量传给主任务网络。其二,对每个字符对应概率分布向量取最大值得到每个字符标签预测结果,此时每个字符对应一个标签。句子中每个字符的预测标签组成句子预测结果,即为子任务输出(子任务预测结果)。条件随机场层能够根据标签序列历史信息对模型预测概率进行调整,添加该层可以有效避免不合理的标签序列。
参照图3,在一实施例中,所述主任务网络包括主任务全连接层、拼接层和主任务条件随机场层,所述主任务全连接层接收所述注意力调整矩阵,按照所述主任务调整注意力,输出主任务注意力调整向量;所述拼接层获取所述子任务网络发送的概率分布向量,将所述主任务注意力调整向量与概率分布向量进行拼接,输出拼接向量;所述主任务条件随机场层根据所述拼接向量确定并输出主任务预测结果。
其中,主任务的输入经过全连接层实现注意力调整后得到各字符对应经注意力调整后的向量,该向量与子任务传来的字符概率分布向量进行向量拼接操作,拼接操作后每个字符得到一个更长的向量表示,该向量即包含字符的语义信息也包含其他子任务预测结果信息。拼接后的向量进入条件随机场层,得到主任务预测结果。
本申请实施例的网络结构中,可以在共享网络后加入Dropout层,也可以在各子任务网络结构中加入Dropout层。Dropout网络结构能够有效防止网络训练过程中的过拟合,加入Dropout并不改变网络根本结构。
模型训练时可以使用误差逆传播方式优化模型参数,误差逆传播算法是神经网络参数优化的常用算法,该方法定义一个用于度量预测结果与真实结果之间距离的损失函数,预测时,模型各运算过程从输入端到输出端正向进行并产生预测结果,将预测结果与真实结果放入损失函数内得到损失值,该损失函数得到的损失值在网络结构中逐层传递,各层网络结构使用损失值优化当前网络参数,该过程称为误差逆传播。
本申请实施例所有网络结构的损失函数为各子任务损失函数之和。其中各子任务到主任务的信息传递过程仅参与模型正向参数传递,在模型训练时不参与误差逆传播。各辅助任务在优化参数时仅考虑当前任务标签,而不必考虑主任务。这一做法使得模型整体更易收敛。
步骤103,将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果。
其中,当命名实体识别网络模型训练完毕,则可以输入待识别文本进行识别。
图9给出了NER任务的标签数据示例,其中B表示实体开始;I表示实体内部;O表示实体外部;E表示实体结尾。
综上所述,本申请实施例具有如下特点:
1、本申请实施例的网络结构在处理复杂命名实体识别任务时能够有效提升模型的准确率和召回率:
本申请实施例通过定义辅助任务并运用本申请实施例的网络结构,能够有效把常识性知识(如新闻事件主体一定是人或组织)引入命名实体识别模型,从而有效提升模型的准确率和召回率。
2、本申请实施例的网络结构更易拟合和训练:
在多任务学习网络结构框架的基础上加入了串行多任务网络结构,相比其他多任务网络结构,串行的网络结构在训练时更容易收敛,使得训练更简单。
3、本申请实施例的网络结构具有更少的网络参数:
通过引入多任务学习框架借助多任务学习共享部分网络结构的特性,本申请实施例的网络结构相比串行多个模型的解决方案拥有更少的网络参数,因而在实际使用中本申请实施例所述网络结构运行所更快。
本申请实施例还提供一种基于多任务学习的命名实体识别装置,包括:
任务生成模块,用于根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务;
训练模块,用于将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练,其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果;
识别模块,用于将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果。
在一实施例中,所述任务生成模块,用于:
将主任务设置为与所述原任务一致;
确定所述主任务的抽取目标;
归纳所述抽取目标具有的目标属性;
根据所述目标属性确定所述子任务。
在一实施例中,所述命名实体识别网络模型还包括共享网络,
所述共享网络接收输入的文本,进行注意力调整后输出注意力调整矩阵至所述子任务网络和主任务网络。
在一实施例中,所述共享网络包括文本嵌入层和多头注意力编码层,其中,
所述文本嵌入层接收输入的文本,将所述文本中的字符转换为字符向量;
所述多头注意力编码层将所述字符向量进行多角度的注意力调整,输出注意力调整矩阵至所述子任务网络和主任务网络。
在一实施例中,所述文本嵌入层通过双向解码器表征模型将所述文本中的字符转换为与上下文相关的字符向量。
在一实施例中,所述子任务网络包括子任务全连接层和子任务条件随机场层,其中
所述子任务全连接层接收所述注意力调整矩阵,按照所述子任务调整注意力,输出子任务注意力调整向量;
所述子任务条件随机场层根据所述子任务注意力调整向量确定每个字符对应的每个标签的概率,得到每个字符对应的概率分布向量,将所述概率分布向量作为子任务预测信息发送至所述主任务网络。
在一实施例中,所述子任务条件随机场层还根据所述概率分布向量确定并输出子任务预测结果。
在一实施例中,所述主任务网络包括主任务全连接层、拼接层和主任务条件随机场层,其中
所述主任务全连接层接收所述注意力调整矩阵,按照所述主任务调整注意力,输出主任务注意力调整向量;
所述拼接层获取所述子任务网络发送的概率分布向量,将所述主任务注意力调整向量与概率分布向量进行拼接,输出拼接向量;
所述主任务条件随机场层根据所述拼接向量确定并输出主任务预测结果。
本申请实施例还提供一种基于多任务学习的命名实体识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于多任务学习的命名实体识别方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述基于多任务学习的命名实体识别方法。
在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (6)
1.一种基于多任务学习的命名实体识别方法,其特征在于,包括:
根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,其中,所述主任务与所述原任务一致,所述子任务为辅助实现所述主任务的任务;
将训练文本输入至命名实体识别网络模型,对所述命名实体识别网络模型进行训练,其中,命名实体识别网络模型至少包括主任务网络和子任务网络,所述子任务网络用于执行所述子任务,并输出子任务预测信息至所述主任务网络,所述主任务网络结合所述子任务预测信息执行所述主任务,输出主任务预测结果;
将待识别文本输入至所述命名实体识别网络模型,根据所述主任务网络的输出确定识别结果;
其中,所述根据命名实体识别的原任务生成一个主任务以及一个或多个子任务,包括:
将主任务设置为与所述原任务一致;
确定所述主任务的抽取目标;
归纳所述抽取目标具有的目标属性;
根据所述目标属性确定所述子任务;
所述命名实体识别网络模型还包括共享网络,
所述共享网络接收输入的文本,进行注意力调整后输出注意力调整矩阵至所述子任务网络和主任务网络;
所述子任务网络包括子任务全连接层和子任务条件随机场层;其中,所述子任务全连接层接收所述注意力调整矩阵,按照所述子任务调整注意力,输出子任务注意力调整向量;所述子任务条件随机场层根据所述子任务注意力调整向量确定每个字符对应的每个标签的概率,得到每个字符对应的概率分布向量,将所述概率分布向量作为子任务预测信息发送至所述主任务网络;
所述主任务网络包括主任务全连接层、拼接层和主任务条件随机场层;其中,所述主任务全连接层接收所述注意力调整矩阵,按照所述主任务调整注意力,输出主任务注意力调整向量;所述拼接层获取所述子任务网络发送的概率分布向量,将所述主任务注意力调整向量与概率分布向量进行拼接,输出拼接向量;所述主任务条件随机场层根据所述拼接向量确定并输出主任务预测结果。
2.根据权利要求1所述的方法,其特征在于,所述共享网络包括文本嵌入层和多头注意力编码层,其中,
所述文本嵌入层接收输入的文本,将所述文本中的字符转换为字符向量;
所述多头注意力编码层将所述字符向量进行多角度的注意力调整,输出注意力调整矩阵至所述子任务网络和主任务网络。
3.根据权利要求2所述的方法,其特征在于,
所述文本嵌入层通过双向解码器表征模型将所述文本中的字符转换为与上下文相关的字符向量。
4.根据权利要求1所述的方法,其特征在于,
所述子任务条件随机场层还根据所述概率分布向量确定并输出子任务预测结果。
5.一种基于多任务学习的命名实体识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~4中任意一项所述的方法。
6.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~4中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131105.6A CN111368545B (zh) | 2020-02-28 | 2020-02-28 | 一种基于多任务学习的命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131105.6A CN111368545B (zh) | 2020-02-28 | 2020-02-28 | 一种基于多任务学习的命名实体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368545A CN111368545A (zh) | 2020-07-03 |
CN111368545B true CN111368545B (zh) | 2024-04-30 |
Family
ID=71208291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010131105.6A Active CN111368545B (zh) | 2020-02-28 | 2020-02-28 | 一种基于多任务学习的命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368545B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
CN112487811B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 基于强化学习的级联信息提取系统及方法 |
CN112257448A (zh) * | 2020-10-29 | 2021-01-22 | 重庆紫光华山智安科技有限公司 | 一种多任务命名实体识别方法、系统、介质及终端 |
CN113297352B (zh) * | 2021-06-07 | 2024-01-16 | 苏州大学 | 基于多任务网络的属性级情感分类方法及装置 |
CN113781401A (zh) * | 2021-08-17 | 2021-12-10 | 浙江工业大学 | 一种无人车车辆偏移预警方法和系统 |
CN115358239B (zh) * | 2022-08-17 | 2023-08-22 | 北京中科智加科技有限公司 | 一种命名实体和关系识别方法及存储介质 |
CN116976351B (zh) * | 2023-09-22 | 2024-01-23 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
-
2020
- 2020-02-28 CN CN202010131105.6A patent/CN111368545B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111368545A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368545B (zh) | 一种基于多任务学习的命名实体识别方法和装置 | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN107391646B (zh) | 一种视频图像的语义信息提取方法及装置 | |
WO2023197613A1 (zh) | 一种小样本微调方法、系统及相关装置 | |
JP2023539532A (ja) | テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム | |
WO2024099144A1 (zh) | 下游任务模型生成及任务执行的方法和设备 | |
CN112417092B (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
US11900263B2 (en) | Augmenting neural networks | |
US11669679B2 (en) | Text sequence generating method and apparatus, device and medium | |
US11842290B2 (en) | Using functions to annotate a syntax tree with real data used to generate an answer to a question | |
CN112825114A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
US12008826B2 (en) | Method and apparatus for customized deep learning-based text correction | |
CN118397147A (zh) | 一种基于深度学习的图像文本生成方法及装置 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN114626529A (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
CN112580325A (zh) | 一种快速文本匹配方法及装置 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN110084356B (zh) | 一种深度神经网络数据处理方法和装置 | |
CN114792097A (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN113392249A (zh) | 图文信息分类方法、图文分类模型训练方法、介质及设备 | |
CN114492457B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN113656573B (zh) | 文本信息生成方法、装置、终端设备 | |
US20230342553A1 (en) | Attribute and rating co-extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |