CN113887225A

CN113887225A - 一种基于多任务模型的词语处理方法及装置

Info

Publication number: CN113887225A
Application number: CN202010628203.0A
Authority: CN
Inventors: 白静; 李长亮; 唐剑波
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2022-01-04

Abstract

本申请提供一种基于多任务模型的词语处理方法及装置，所述方法包括：获取候选实体片段，并基于候选实体片段生成候选实体片段编码向量；通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量；将识别剪枝编码向量输入至关系抽取模型进行两次打分生成第一关系对最终编码向量，将第一关系对最终编码向量通过关系抽取模型进行处理，可以准确地确定候选实体片段中词语之间的关系；将识别剪枝编码向量输入至共指消解模型进行两次打分生成第二关系对最终编码向量，将第二关系对最终编码向量通过共指消解模型进行处理，可以准确地确定候选实体片段中词语之间的共指关系。

Description

一种基于多任务模型的词语处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种基于多任务模型的词语处理方法及装置、多任务模型的训练方法及装置、计算设备及计算机可读存储介质。

背景技术

实体识别是指在非结构化的文本中识别并抽出具有特定意义或指代性强的实体，比如人名、地名、组织结构名、日期时间、专有名词等。

关系是两个或多个实体之间的某种联系，关系抽取是从文本中检测和识别出实体与实体之间具有的某种语义关系，比如句子“北京是中国的首都、政治中心和文化中心”，其中表述的关系可以为(中国，首都，北京)、(中国，政治中心，北京)或(中国，文化中心，北京)。

共指消解是特殊的关系抽取，共指消解的其中一个实体通常是另外一个实体在当前语境下的不同说法，两个实体之间的关系可以表示为(实体1，共指，实体2)。

目前，对于语句的实体识别任务、关系抽取任务、共指消解任务均是分别进行的，多任务之间信息无法共享，互相无法约束，进而导致实体识别、关系抽取、共指消解的效果均不理想。

发明内容

有鉴于此，本申请实施例提供了一种基于多任务模型的词语处理方法及装置、多任务模型的训练方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种基于多任务模型的词语处理方法，包括：

获取候选实体片段，并基于所述候选实体片段生成候选实体片段编码向量；

通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量；

将所述识别剪枝编码向量输入至关系抽取模型进行两次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系；

将所述识别剪枝编码向量输入至共指消解模型进行两次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系。

可选地，将所述识别剪枝编码向量输入至关系抽取模型进行两次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系，包括：

通过关系抽取模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得关系抽取编码向量；

基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，通过所述关系抽取模型对所述第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。

可选地，将所述识别剪枝编码向量输入至共指消解模型进行两次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系，包括：

通过共指消解模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得共指消解编码向量；

基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量，通过所述共指消解模型对所述第二关系对最终编码向量进行共指消解处理，获得共指消解结果，并基于所述共指消解结果确定所述候选实体片段中词语之间的共指关系。

可选地，所述实体识别模型与所述关系抽取模型、共指消解模型共用一个用于打分的前馈神经网络；

所述通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量，包括：

将所述候选实体片段编码向量输入至实体识别模型中，通过所述前馈神经网络对所述候选实体片段编码向量进行打分；

基于所述候选实体片段编码向量的分数对所述候选实体编码向量进行分类处理，获得所述候选实体编码向量的分类标签，并对所述候选实体编码向量进行剪枝，获得识别剪枝编码向量。

可选地，所述关系抽取模型与所述实体识别模型共用一个用于打分的前馈神经网络；

通过关系抽取模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，包括：

将所述识别剪枝编码向量输入至所述关系抽取模型中，通过所述前馈神经网络对所述识别剪枝编码向量进行第一次打分，得到所述识别剪枝编码向量的分数；

将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。

可选地，所述共指消解模型与所述实体识别模型共用一个用于打分的前馈神经网络；

通过共指消解模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得共指消解编码向量，包括：

将所述识别剪枝编码向量输入至所述共指消解模型中，通过所述前馈神经网络对所述识别剪枝编码向量进行第一次打分，得到所述识别剪枝编码向量的分数；

将分数大于或等于预设阈值的识别剪枝编码向量作为共指消解编码向量。

可选地，所述基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，包括：

基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量；

对所述第一初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量；

将所述第一关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第一关系对编码向量得到第一关系对最终编码向量。

可选地，基于第二次打分的分数以及所述第一关系对编码向量得到第一关系对最终编码向量，包括：

基于所述第一关系对编码向量的第二次打分的分数生成第一权重分数；

基于第一权重分数对所述第一关系对编码向量对应的关系抽取编码向量依次进行注意力处理，得到第一中间向量；

基于所述第一中间向量和所述第一关系对编码向量对应的关系抽取编码向量进行门控处理，得到第一门控向量；

根据所述第一门控向量、所述第一中间向量以及所述第一关系对编码向量对应的关系抽取编码向量进行重新编码，生成重新编码后的第一更新编码向量；

基于所述第一更新编码向量以及所述第一更新编码向量的分类标签，生成第一关系对最终编码向量。

可选地，所述对所述第一初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量，包括：

通过前馈神经网络对所述第一初始关系对编码向量进行打分，获得第一初始关系对编码向量的分数；

对所述第一初始关系对编码向量进行分类预测处理，获得所述第一初始关系对编码向量的类别；

基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量。

可选地，所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量，包括：

将所述关系抽取编码向量的分类标签进行编码处理，生成第一标签向量；

基于任意两个所述关系抽取编码向量及其对应的所述第一标签向量，获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。

基于任意两个所述关系抽取编码向量在所述候选实体片段中的位置，确定该任意两个关系抽取编码向量之间的语义向量；

基于任意两个所述关系抽取编码向量、该任意两个关系抽取编码向量之间的语义向量以及每个所述关系抽取编码向量对应的所述第一标签向量，获得任意两个所述关系抽取编码向量的第一初始关系对编码向量。

可选地，确定该任意两个关系抽取编码向量之间的语义向量，包括：

确定该任意两个关系抽取编码向量之间的多个词向量；

将所述任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理，得到对应的语义向量。

可选地，获得任意两个所述关系抽取编码向量的第一初始关系对编码向量，包括：根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系，分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。

可选地，通过前馈神经网络对所述第一初始关系对编码向量进行打分，获得第一初始关系对编码向量的分数，包括：

通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分，并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。

可选地，所述基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量，包括：

基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量；

对所述第二初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量；

将所述第二关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第二关系对编码向量得到第二关系对最终编码向量。

可选地，基于第二次打分的分数以及所述第二关系对编码向量得到第二关系对最终编码向量，包括：

基于对所述第二关系对编码向量的第二次打分的分数生成第二权重分数；

基于第二权重分数对所述第二关系对编码向量对应的共指消解编码向量依次进行注意力处理，得到第二中间向量；

基于所述第二中间向量和所述第二关系对编码向量对应的共指消解编码向量进行门控处理，得到第二门控向量；

根据所述第二门控向量、所述第二中间向量以及所述第二关系对编码向量对应的共指消解编码向量进行重新编码，生成重新编码后的第二更新编码向量；

基于所述第二更新编码向量以及所述第二更新编码向量的分类标签，生成第二关系对最终编码向量。

可选地，基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量，包括：

将所述共指消解编码向量的分类标签进行编码处理，生成第二标签向量；

基于任意两个所述共指消解编码向量及其对应的所述第二标签向量，获得任意两个所述共指消解编码向量的第二初始关系对编码向量。

基于任意两个所述共指消解编码向量在所述候选实体片段中的位置，确定该任意两个共指消解编码向量之间的语义向量；

基于任意两个所述共指消解编码向量、该任意两个共指消解编码向量之间的语义向量以及每个所述共指消解编码向量对应的所述第二标签向量，获得任意两个所述共指消解编码向量的第二初始关系对编码向量。

可选地，确定该任意两个共指消解编码向量之间的语义向量，包括：

确定该任意两个共指消解编码向量之间的多个词向量；

将所述任意两个共指消解编码向量之间的多个词向量进行池化处理或者注意力处理，得到对应的语义向量。

可选地，对所述第二初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量，包括：

通过前馈神经网络对所述第二初始关系对编码向量进行打分，获得第二初始关系对编码向量的分数；

对所述第二初始关系对编码向量进行分类预测处理，获得所述第二初始关系对编码向量的类别；

基于所述第二初始关系对编码向量的类别和分数对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量。

可选地，通过所述关系抽取模型对所述第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，包括：通过所述关系抽取模型对所述第一关系对最终编码向量进行打分，并基于打分结果对所述第一关系对最终编码向量进行分类预测处理，获得关系抽取结果。

可选地，通过所述共指消解模型对所述第二关系对最终编码向量进行共指消解处理，获得共指消解结果，包括：通过所述共指消解模型对所述第二关系对最终编码向量进行打分，并基于打分结果对所述第二关系对最终编码向量进行分类预测处理，获得共指消解结果。

可选地，所述方法还包括：将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理。

本申请实施例提供了一种多任务模型的训练方法，包括：

获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签，并基于每个样本候选实体对的样本候选实体生成样本候选实体编码向量；

通过实体识别模型对所述样本候选实体编码向量进行实体识别处理和分类剪枝处理，获得样本识别剪枝编码向量；

分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量；

基于所述第一样本关系对最终编码向量和所述第二样本关系对最终编码向量分别确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，并对所述实体识别模型、所述关系抽取模型和所述共指消解模型进行训练。

可选地，分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量，包括：

将所述样本识别剪枝编码向量输入至所述关系抽取模型中，通过所述关系抽取模型对所述样本识别剪枝编码向量进行第一次打分，并基于分值对所述样本识别剪枝编码向量进行剪枝，获得样本关系抽取编码向量，基于所述样本关系抽取编码向量进行第二次打分生成第一样本关系对最终编码向量；

将所述样本识别剪枝编码向量输入至所述共指消解模型中，通过共指消解模型对所述样本识别剪枝编码向量进行第一次打分，并基于分值对所述样本识别剪枝编码向量进行剪枝，获得样本共指消解编码向量，基于所述样本共指消解编码向量进行第二次打分生成第二样本关系对最终编码向量。

可选地，基于所述样本关系抽取编码向量进行第二次打分生成第一样本关系对最终编码向量，包括：

基于样本关系抽取编码向量以及所述样本关系抽取编码向量的分类标签，获得第一初始样本关系对编码向量；

对所述第一初始样本关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始样本关系对编码向量进行剪枝，获得第一样本关系对编码向量；

将所述第一样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量。

可选地，基于第二次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量，包括：

基于所述第一样本关系对编码向量的第二次打分的分数生成第一样本权重分数；

基于第一样本权重分数对所述第一样本关系对编码向量对应的样本关系抽取编码向量依次进行注意力处理，得到第一样本中间向量；

基于所述第一样本中间向量和所述第一样本关系对编码向量对应的样本关系抽取编码向量进行门控处理，得到第一样本门控向量；

根据所述第一样本门控向量、所述第一样本中间向量以及所述第一样本关系对编码向量对应的样本关系抽取编码向量进行重新编码，生成重新编码后的第一样本更新编码向量；

基于所述第一样本更新编码向量以及所述第一样本更新编码向量的分类标签，生成第一样本关系对最终编码向量。

可选地，基于所述样本共指消解编码向量进行第二次打分生成第二样本关系对最终编码向量，包括：

基于样本共指消解编码向量以及所述样本共指消解编码向量的分类标签，获得第二初始样本关系对编码向量；

对所述第二初始样本关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始样本关系对编码向量进行剪枝，获得第二样本关系对编码向量；

将所述第二样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量。

可选地，基于第二次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量，包括：

基于所述第二样本关系对编码向量的第二次打分的分数生成第二样本权重分数；

基于第二样本权重分数对所述第二样本关系对编码向量对应的样本共指消解编码向量依次进行注意力处理，得到第二样本中间向量；

基于所述第二样本中间向量和所述第二样本关系对编码向量对应的样本共指消解编码向量进行门控处理，得到第二样本门控向量；

根据所述第二样本门控向量、所述第二样本中间向量以及所述第二样本关系对编码向量对应的样本共指消解编码向量，生成重新编码后的第二样本更新编码向量；

基于所述第二样本更新编码向量以及所述第二样本更新编码向量的分类标签，生成第二样本关系对最终编码向量。

可选地，分别基于所述第一样本关系对最终编码向量和所述第二样本关系对最终编码向量确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，包括：

基于所述第一样本关系对最终编码向量的分值以及分类标签、所述第二样本关系对最终编码向量的分值以及分类标签利用交叉熵损失函数计算实体识别模型的损失值；

基于第一样本关系对最终编码向量的分值与第一样本关系对最终编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值；

基于第二样本关系对最终编码向量的分值与第二样本关系对最终编码向量的分类标签利用交叉熵损失函数计算共指消解模型的损失值。

可选地，第一样本关系对最终编码向量包括两个样本关系抽取编码向量；

基于第一样本关系对最终编码向量的分值与第一样本关系对最终编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值，包括：

在所述分类标签为对称关系标签的情况下，将所述第一样本关系对最终编码向量的两个样本关系抽取编码向量进行反向排列，生成反向第一样本关系对最终编码向量；

将所述第一样本关系对最终编码向量的分值以及对应的分类标签、所述反向第一样本关系对最终编码向量以及对应的分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。

本申请实施例提供了一种基于多任务模型的词语处理装置，包括：

实体片段获取模块，被配置为获取候选实体片段，并基于所述候选实体片段生成候选实体片段编码向量；

实体识别剪枝模块，被配置为通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量；

关系抽取处理模块，被配置为将所述识别剪枝编码向量输入至关系抽取模型进行二次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系；

共指消解处理模块，被配置为将所述识别剪枝编码向量输入至共指消解模型进行二次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系。

本申请实施例提供了一种多任务模型的训练装置，包括：

样本获取模块，被配置为获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签，并基于每个样本候选实体对的样本候选实体生成样本候选实体编码向量；

样本识别模块，被配置为通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得样本识别剪枝编码向量；

样本处理模块，被配置为分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量；

模型训练模块，被配置为分别基于所述第一样本关系对最终编码向量和第二样本关系对最终编码向量分别确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，并对所述实体识别模型、所述关系抽取模型和所述共指消解模型进行训练。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的基于多任务模型的词语处理方法或多任务模型的训练方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现如上所述的基于多任务模型的词语处理方法或多任务模型的训练方法的步骤。

本申请提供的基于多任务模型的词语处理方法及装置，首先通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量，以减少候选实体片段编码向量中的负例，再将识别剪枝编码向量分别输入至关系抽取模型和共指消解模型进行两次打分，分别得到第一关系对最终编码向量和第二关系对最终编码向量，然后将第一关系对最终编码向量通过关系抽取模型进行处理确定候选实体片段中词语之间的关系、将第二关系对最终编码向量通过共指消解模型进行处理确定候选实体片段中词语之间的共指关系，从而通过两次打分分别对关系抽取任务和共指消解任务增加约束，提升了关系抽取模型和共指消解模型的评价指标，可以更加准确地分别获取候选实体片段中词语之间的关系以及共指关系。

其次，本申请中先通过关系抽取模型的前馈神经网络对识别剪枝编码向量进行第一次打分得到关系抽取编码向量，再基于关系抽取编码向量依次进行分类预测、剪枝得到第一关系对编码向量，将所述第一关系对编码向量通过关系抽取模型的前馈神经网络进行第二次打分，最后基于第二次打分的分数以及第一关系对编码向量对应的关系抽取编码向量进行注意力处理和门控处理，最终得到第一关系对最终编码向量，从而实现了对关系抽取编码向量进行了信息的更新，融入了其他的关系抽取编码向量的信息，使得关系抽取任务有了明显的提升。

再次，本申请中先通过共指消解模型的前馈神经网络对识别剪枝编码向量进行第一次打分得到共指消解编码向量，再基于共指消解编码向量依次进行分类预测、剪枝得到第二关系对编码向量，将所述第二关系对编码向量通过共指消解模型的前馈神经网络进行第二次打分，最后基于第二次打分的分数以及第二关系对编码向量对应的共指消解编码向量进行注意力处理和门控处理，最终得到第二关系对最终编码向量，从而实现了对共指消解编码向量进行了信息的更新，融入了其他的共指消解编码向量的信息，使得共指消解任务有了明显的提升。

另外，将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理，使得实体识别任务的评价指标有了明显的提升。

本申请提供的多任务模型的训练方法及装置，在训练过程中首先将关系抽取任务、共指消解任务、实体识别任务进行有机结合，再分别对关系抽取模型、共指消解模型和实体识别模型进行训练，可以有效提高模型训练的效果，提高关系抽取模型、共指消解模型和实体识别模型的性能。

附图说明

图1是本申请一实施例所述的多任务模型的结构示意图；

图2是本申请一实施例所述的基于多任务模型的词语处理方法的步骤流程示意图；

图3是本申请一实施例所述的基于多任务模型的词语处理方法的步骤流程示意图；

图4是本申请一实施例所述的多任务模型的训练方法的步骤流程示意图；

图5是本申请一实施例所述的基于多任务模型的词语处理装置的结构示意图；

图6是本申请一实施例所述的多任务模型的训练装置的结构示意图；

图7是本申请一实施例所述的计算设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

实体识别：是指在非结构化的文本中识别并抽出具有特定意义或指代性强的实体，比如人名、地名、组织结构名、日期时间、专有名词等。

实体识别模型：用于执行实体识别任务的模型。

关系抽取：从文本中检测和识别出实体与实体之间具有的某种语义关系，比如句子“北京是中国的首都、政治中心和文化中心”，其中表述的关系可以为(中国，首都，北京)、(中国，政治中心，北京)或(中国，文化中心，北京)。

关系抽取模型：用于执行关系抽取任务的模型。

共指消解：特殊的关系抽取，共指消解的其中一个实体通常是另外一个实体在当前语境下的不同说法，两个实体之间的关系可以表示为(实体1，共指，实体2)。

共指消解模型：用于执行共指消解任务的模型。

候选实体片段(span)：由语句中的一个词或多个词组成的片段。

候选实体片段编码向量(span embedding)：候选实体片段经过编码器的编码处理生成的向量。

识别剪枝编码向量：候选实体片段编码向量经过剪枝后剩余的编码向量。

剪枝：根据预设的规则进行筛选。

关系抽取编码向量：基于关系抽取处理结果对识别剪枝编码向量进行剪枝后剩余的编码向量。

第一标签向量：对关系抽取编码向量的分类标签进行编码处理得到的编码向量。

第一初始关系对编码向量：基于两个关系抽取编码向量及其第一标签向量以及距离特征向量组合而成的编码向量。

第一关系对编码向量：基于第一初始关系对编码向量的分数对第一初始关系对编码向量进行剪枝后剩余的编码向量。

共指消解编码向量：基于共指消解处理结果对识别剪枝编码向量进行剪枝后剩余的编码向量。

第二标签向量：对共指消解编码向量的分类标签进行编码处理得到的编码向量。

第二关系对编码向量：基于两个共指消解编码向量及其第二标签向量以及距离特征向量组合而成的编码向量。

前馈神经网络(FeedForward Neural Network，FFNN)：一种最简单的神经网络，各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层.各层间没有反馈，是目前应用最广泛、发展最迅速的人工神经网络之一。在本申请中，实体识别模型、关系抽取模型、共指消解模型共用一个用于打分的前馈神经网络进行打分。

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习(deep learning)的代表算法之一，在本申请中，通过CNN网络编码得到每一个词相应的字符级别的特征。

分类标签：用于标识编码向量类型的标识。

正确率：是指识别出的正确实体数与识别出的实体数的比值，取值在0-1之间，数值越大，正确率越高。

召回率：是指识别出的正确实体数与样本的实体数的比值，取值在0-1之间，数值越大，找回率越高。

加权调和平均值：又称F1值，F1值＝(2*正确率*召回率)/(正确率+召回率)。

在本申请中，提供了一种基于多任务模型的词语处理方法及装置、多任务模型的训练方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

如图1所示，本实施例提供了一种多任务模型，所述多任务模型用于本申请所述的基于多任务模型的词语处理方法，包括编码器、实体识别模型、关系抽取模型与共指消解模型，其中，实体识别模型、关系抽取模型与共指消解模型共用一个前馈神经网络。

实体识别模型，是用于识别非结构化输入文本中的实体的模型，在本实施例中，实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量。

关系抽取模型，是用于检测、识别、抽取实体与实体之间语义关系的模型，在本实施例中，关系抽取模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得关系抽取编码向量；基于关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，通过关系抽取模型对第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，并基于关系抽取结果确定候选实体片段中词语之间的关系。

共指消解模型，是用于检测、识别、抽取存在共指关系的实体的模型，在本实施例中，共指消解模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得共指消解编码向量；基于共指消解编码向量生成第二关系对最终编码向量，通过共指消解模型对第二关系对最终编码向量进行共指消解处理，获得共指消解结果，并基于共指消解结果确定候选实体片段中词语之间的共指关系。

并且，将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理，以提升实体识别模型的实体识别效果。

本实施例提供的多任务模型，通过将关系抽取模型、实体识别模型、共指消解模型进行有机结合，三者共用一个用于打分的前馈神经网络，可以实现关系抽取模型、实体识别模型、共指消解模型彼此之间的信息共享，提高上述关系抽取模型、实体识别模型、共指消解模型的正确率和召回率。

如图2所示，图2是示出了根据本申请一实施例的基于多任务模型的词语处理方法的步骤流程图，包括步骤S210至步骤S240，其中，步骤S230与步骤S240为并列步骤，无必然先后执行顺序。

S210、获取候选实体片段，并基于所述候选实体片段生成候选实体片段编码向量。

其中，候选实体片段是由目标语句或目标段落、目标文章中的一个或多个词语组合成的词语集合，每一个词语均表示一个实体。具体地，可以通过对目标语句或目标段落、目标文章等进行分词处理，再在上述分词处理的结果中抽取一个或多个目标词语组合成词语集合，即得到候选实体片段。

例如，假设对目标语句进行分词处理后，得到分词处理结果A1-A10在内的10个词语，在上述分词处理结果中进行抽取得到A1-A6组成的词语集合，并将上述词语集合作为候选实体片段。

在实际应用中，可以将候选实体片段输入至编码器中进行编码处理，生成候选实体片段编码向量。

在本实施例中，编码器包括双向LSTM、预训练的BERT模型、CNN网络及其任意组合。

优选地，首先通过预训练的BERT模型对包含若干候选实体片段的语句进行编码处理后得到该语句词级别的特征向量，通过CNN网络进行编码处理后得到该语句字符级别的特征向量，将上述词级别的特征向量以及字符级别的特征向量进行拼接，得到拼接向量，再将上述拼接向量通过双向LSTM网络进行编码处理后得到带有上下文特征的特征向量，最后基于抽取得到的候选实体片段利用注意力机制计算得到每个候选实体片段编码向量，候选实体片段的编码向量可以通过下式表示：

其中，g_i表示候选实体片段的编码向量，x_START(i) ^*、x_END(i) ^*表示候选实体片段起止位置的向量，Φ_(i)表示额外的特征，

表示基于注意力机制对每一个候选实体片段中的词进行计算得到的结果，

的具体计算过程如下：

具体地，t表示候选实体片段，i表示候选实体片段中的词，公式(2)表示候选实体片段中每一个词对应的编码向量x_t ^*由经过双向lstm的正向传播输出的向量(h_t，1)以及反向传播输出的向量(h_t，-1)组成，公式(3)表示候选实体片段t的参数α通过其参数w与前馈神经网络对该候选实体片段打出的分数点乘得到，公式(4)表示候选实体片段中每一个词的权重a_i，t基于其所在的候选实体片段的参数α以及该词在候选实体片段的总参数得到，公式(5)表示候选实体片段中每一个词对应的编码向量

该词在该候选实体片段中的权重参数a_i，t与该候选实体片段编码向量x_t得到。

本实施例通过获取候选实体片段，并对候选实体片段进行编码处理，以为后续其他任务的执行做好准备，提高后续任务执行的效率。

S220、通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量。

需要说明的是，在本实施例中，实体识别模型与关系抽取模型、共指消解模型共用一个用于打分的前馈神经网络。

具体地，所述步骤S220还可以包括步骤S221至步骤S222。

S221、将所述候选实体片段编码向量输入至实体识别模型中，通过所述前馈神经网络对所述候选实体片段编码向量进行打分。

其中，每一个候选实体片段编码向量的分数均由基础分数(Mention score)和分类分数(classifier score)组成，并且上述基础分数和分类分数均通过前馈神经网络打分得到。候选实体片段编码向量的分数可以为基础分数与分类分数之和、平均值、加权平均值等均可，本申请对此不做限制。

前馈神经网络是利用深度学习的原理对候选实体片段编码向量进行打分的，具体而言，通过利用前馈神经网络对候选实体片段编码向量再次进行计算或编码，并映射出相应的分数，即获得候选实体片段编码向量的分数。需要说明的是，前馈神经网络对于分数的映射可以通过后续任务的执行、损失值的计算、梯度的回传等不断进行调整。候选实体片段编码向量的分数可以为十分制分数、百分制分数、千分制分数等，本申请对此不做限制。

本实施例通过对候选实体片段编码向量进行打分，进而进行实体识别处理，可以提高实体识别处理的准确性，提高实体识别模型的效果。

S222、基于所述候选实体片段编码向量的分数对所述候选实体编码向量进行分类处理，获得所述候选实体编码向量的分类标签，并对所述候选实体编码向量进行剪枝，获得识别剪枝编码向量。

在实际应用中，基于所述候选实体片段编码向量的分数对所述候选实体编码向量进行分类处理，获得每一个候选实体片段编码向量的分类标签，进而可以获得每一个候选实体片段编码向量所属的类别，可以按照分类结果剪枝掉其中一个或几个类别中一定比例的候选实体片段编码向量，并将剩余的候选实体编码向量作为识别剪枝编码向量，也可以剪枝掉分数小于预设阈值的候选实体编码向量，并将剩余的候选实体编码向量作为识别剪枝编码向量，本申请对此不做限制。

例如，假设候选实体片段编码向量共存在第一类、第二类……第n类等n个类别，其中第n类为负例，即不属于前面类别的所有候选实体片段编码向量均归为第n类，经过分类处理后，m个候选实体片段编码向量中的m₁个属于第一类，m₂个属于第二类……m_n个属于第n类(m₁+m₂+……m_n＝m)，那么可以根据以下三种方式对上述候选实体片段编码向量进行剪枝：(1)第一类剪枝掉p₁％的候选实体片段编码向量，第二类剪枝掉p₂％的候选实体片段编码向量……第n类剪枝掉p_n％的候选实体片段编码向量，并将剩余的候选实体编码向量作为识别剪枝编码向量，其中，p₁、p₂……p_n的数值既可以相同，也可以不同；(2)第一类、第二类……第n-1类的候选实体片段编码向量不进行剪枝，第n类剪枝掉p_n％的候选实体片段编码向量，并将剩余的候选实体编码向量作为识别剪枝编码向量；(3)将其中的一类或多类的分数小于预设阈值的候选实体片段编码向量剪枝掉，并将剩余的候选实体编码向量作为识别剪枝编码向量，其中分数的预设阈值可以视具体情况确定，本申请对此不做限制。

在本实施例中，对候选实体片段编码向量进行分类处理和剪枝处理，有助于提高后续关系抽取模型和共指消解模型输入编码向量的质量，为关系抽取任务和共指消解任务的执行打下基础。

S230、将所述识别剪枝编码向量输入至关系抽取模型进行两次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系。

具体地，所述步骤S230还可以包括步骤S231至步骤S232。

S231、通过关系抽取模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得关系抽取编码向量。

具体地，关系抽取模型与实体识别模型共用一个用于打分的前馈神经网络；

步骤S231包括：将识别剪枝编码向量输入至关系抽取模型中，通过前馈神经网络对识别剪枝编码向量进行第一次打分，得到识别剪枝编码向量的分数，然后将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。

其中，每一个识别剪枝码向量的分数均由基础分数和分类分数组成，并且上述基础分数和分类分数均通过前馈神经网络打分得到。

本实施例通过对识别剪枝编码向量进行打分，在实体识别任务的基础上对识别剪枝编码向量进一步进行处理，有助于进一步为后续关系抽取任务的执行做好铺垫。

S232、基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，通过所述关系抽取模型对所述第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。

具体地，步骤S232中基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，包括下述步骤S2321至步骤S2323：

S2321、基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量。

具体地，可以将所述关系抽取编码向量的分类标签进行编码处理，生成第一标签向量；基于所述关系抽取编码向量和所述第一标签向量，获得第一初始关系对编码向量。

在实际应用中，每一个第一初始关系对编码向量均由两个关系抽取编码向量以及两个关系抽取编码向量对应的分类标签编码向量组成，换而言之，可以将候选实体片段中两个词语的关系抽取编码向量以及两个词语各自的第一标签向量进行拼接，获得第一初始关系对编码向量，如下所示：

span_pair_embeddings＝torch.cat([span1_embeddings，span2_embeddings，span1_embeddings*span2_embeddings，span1_label_embedding，span2_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第一初始关系对编码向量，span1_embeddings表示关系抽取编码向量1，span2_embeddings表示关系抽取编码向量2，span1_label_embedding表示关系抽取编码向量1的标签向量，span2_label_embedding表示关系抽取编码向量2的标签向量。

需要说明的是，分类标签属于候选实体片段的特征信息的一种，除此之外，在生成第一初始关系对编码向量时还可以结合其他类型的特征信息，如距离等，可视具体情况而定，本申请对此不做限制。

例如，可以将候选实体片段中两个词语的关系抽取编码向量、两个词语各自的第一标签向量以及两个词语之间的距离特征向量进行拼接，获得第一初始关系对编码向量，如下所示：

span_pair_embeddings＝torch.cat([span1_embeddings，span2_embeddings，span1_embeddings*span2_embeddings，antecedent_distance_embeddings，span1_label_embedding，span2_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第一初始关系对编码向量，span1_embeddings表示关系抽取编码向量1，span2_embeddings表示关系抽取编码向量2，antecedent_distance_embeddings表示关系抽取编码向量1与关系抽取编码向量2的距离特征向量，span1_label_embedding表示关系抽取编码向量1的标签向量，span2_label_embedding表示关系抽取编码向量2的标签向量。

再例如，第一初始关系对编码向量的具体生成方法包括：

具体地，确定该任意两个关系抽取编码向量之间的语义向量，包括：确定该任意两个关系抽取编码向量之间的多个词向量；将任意两个关系抽取编码向量之间的多个词向量进行池化处理或者注意力处理，得到对应的语义向量。

在具体应用中，对于候选实体片段[w1，w2，…，wx-1，wx]，[w1，w2]是关系抽取编码向量span1，[wx-1，wx]是关系抽取编码向量span2，那么其中的[w3，…，wx-2]为该任意两个关系抽取编码向量span1和span2之间的词向量，将两个关系抽取编码向量span1和span2之间的词向量[w3，…，wx-2]进行池化处理或者注意力处理，得到对应的语义向量，从而可以增加第一初始关系对编码向量的语义信息，增强第一初始关系对编码向量的表达能力。

对于池化处理，需要说明的是，对于词向量[w3，…，wx-2]，如果全部保留这些信息就会有信息冗余，增加了计算难度，这时候池化处理就相当于降维操作，以实现对向量进行压缩，保留主要特征。池化处理是在一个小矩阵区域内，取该区域的最大值或平均值来代替该区域，从而得到最终的语义向量。该小矩阵的大小可以根据实际需要而设置。

对于注意力处理，计算公式如前述公式(3)～(5)所示，在此便不再赘述。

具体地，第一初始关系对编码向量的计算如下：

span_pair_embeddings＝torch.cat([span1_embeddings，span2_embeddings，span1_embeddings*span2_embeddings，segment_info，span1_label_embedding，span2_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第一初始关系对编码向量，span1_embeddings表示关系抽取编码向量1，span2_embeddings表示关系抽取编码向量2，segment_info表示关系抽取编码向量1与关系抽取编码向量2之间的词向量，span1_label_embedding表示关系抽取编码向量1的标签向量，span2_label_embedding表示关系抽取编码向量2的标签向量。

需要说明的是，在计算span_pair_embeddings的过程中，并非所有的词之间都可以产生关系，例如在一段文字里，隔了很远的词之间基本就不会产生关系了。所以本实施例中就设定了一个距离阈值，若span1和span2之间的距离超过阈值，便直接将该span1和span2的span_pair_embeddings进行剪枝。距离阈值的数值可以根据实际需求而设置，例如设置距离阈值为60个词单元。

也即，在生成span_pair_embeddings的时候，既生成span_pair_embedding12，又生成span_pair_embedding21。

需要说明的是，正反向语义关系和具体的排列顺序并不一定一致。这里假设关系是一种不对称关系，认为正向语义关系是正确的和符合标注的关系，反向语义关系是不正确的和不符合数据标注的关系。比如method is used for task，那么[span1(method)span2(task)]认为是正向语义关系的正确关系，顺序反过来就是错误的反向关系。这个时候span1和span2正好是先后的排列顺序。

但是换个标注的话，如果是part of，在句子有可能的表达是1)span1 is part ofspan2；2)span 1 includes span2。

这两个句子中span对都会标注为一种part of的关系，但是1)中正向语义关系就是[span1 span2]，而2)中的正向语义关系则是[span2 span1]。

本实施例基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量，有助于提高关系抽取任务的执行效率和效果。

S2322、对所述第一初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量。

具体地，可以通过前馈神经网络对所述第一初始关系对编码向量进行打分，获得第一初始关系对编码向量的分数；对所述第一初始关系对编码向量进行分类预测处理，获得所述第一初始关系对编码向量的类别；基于所述第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量。

在实际应用中，可以通过softmax函数确定第一初始关系对编码向量的类别，softmax函数的公式如下式(6)所示：

其中，S_i表示第i个第一初始关系对编码向量对应的softmax值；i代表第i个第一初始关系对编码向量；j代表第一初始关系对编码向量的总个数。

具体地，第一初始关系对编码向量的类别，即为其中两个词之间关系的类别，在实际应用中还可以基于第一初始关系对编码向量的类别和分数对所述第一初始关系对编码向量进行剪枝，既可以剪枝掉其中一类或多类的一定比例的第一初始关系对编码向量，也可以剪枝掉分数小于预设阈值的第一初始关系对编码向量，可视具体情况确定，本申请对此不做限制。

可选地，在所述分类标签为方向性分类标签的情况下，是有明显方向性的标签属性，比如used for由于通常标注数据会是[method(头实体标签)、use for(关系标签)、task(尾实体标签)]，而不会是反过来。所以根据这个分类评分，依照类别分别按预设比例进行剪枝，取得组成高分的pair span-embedding的时候，需要特别对比pair span-embedding12和pair span-embedding21在当前分类下的分数。如果pair span-embedding12在当前的类别比较高，那么pair span-embedding21就应该是一个负例，所以要强制给一个很低的分数。实际应用阶段，该分数可以设置为0，也可以设置为其他分数。

具体地，通过前馈神经网络对所述第一初始关系对编码向量进行打分，获得第一初始关系对编码向量的分数，包括：通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分，并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。

本实施例中，预设阈值可以设置为多个数值，例如为0。

本实施例通过对第一初始关系对编码向量进行打分、分类和剪枝，获得第一关系对编码向量，有助于进一步提高关系抽取任务的执行效率和效果。

S2323、将所述第一关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第一关系对编码向量得到第一关系对最终编码向量。

本实施例中，步骤S2323中的基于第二次打分的分数以及所述第一关系对编码向量得到第一关系对最终编码向量，包括下述步骤S21～S24：

S21、基于第一关系对编码向量的第二次打分的分数生成第一权重分数。

第一权重分数的计算参见下述公式(7)：

s(i，j)＝s_m(i)+s_m(j)+s_a(i，j) (7)

其中，i，j代表关系抽取编码向量；

s_m(i)代表第一关系对编码向量中的关系抽取编码向量i可以作为一个实体的分数；

s_m(j)代表第一关系对编码向量中的关系抽取编码向量j可以作为一个实体的分数；

s_a(i,j)代表关系抽取编码向量j可能是关系抽取编码向量i的先行词的分数；

s(i,j)代表第一权重分数。

S22、基于第一权重分数对所述第一关系对编码向量对应的关系抽取编码向量依次进行注意力处理，得到第一中间向量。

第一中间向量的计算参见下述公式(8)～(9)：

其中，g代表第一关系对编码向量对应的关系抽取编码向量；

P代表注意力的权重系数；

a代表第一中间向量；

s代表第一权重分数；

i，j均代表[0,n]集合中的一个参量。

S23、基于所述第一中间向量和所述第一关系对编码向量对应的关系抽取编码向量进行门控处理，得到第一门控向量。

第一门控向量的计算参见下述公式(10)：

其中，σ表示逻辑sigmod函数，

W_f表示权重参数，

代表第i个第一中间向量；

代表第i个第一关系对编码向量对应的关系抽取编码向量；

i代表[0,n]集合中的一个参量；

代表第i个第一门控向量。

S24、根据第一门控向量、第一中间向量以及所述第一关系对编码向量对应的关系抽取编码向量进行重新编码，生成重新编码后的第一更新编码向量。

具体地，第一更新编码向量的计算公式如下式(11)所示：

其中，

代表第i个第一门控向量；

代表第i个第一中间向量；

代表第i个第一关系对编码向量对应的关系抽取编码向量；

代表第i个第一更新编码向量。

根据此公式可知，第一更新编码向量的计算是利用第一门控向量来重新对第一关系对编码向量对应的关系抽取编码向量进行再次编码，这个数值是(0，1)之间。可以理解为新得到的第一更新编码向量有多少(f)来自原来的关系抽取编码向量

有多少(1-f)来自第一中间向量

S25、基于所述第一更新编码向量以及所述第一更新编码向量的分类标签，生成第一关系对最终编码向量。

具体地，第一关系对最终编码向量的计算如下：

fspan_pair_embeddings＝torch.cat([f1_embeddings，f2_embeddings，f1_embeddings*f2_embeddings，segment_info，f1_label_embedding，f2_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，fspan_pair_embeddings表示第一关系对最终编码向量，f1_embeddings表示第一更新编码向量1，f2_embeddings表示第一更新编码向量2，segment_info表示第一更新编码向量1与第一更新编码向量2之间的词向量，f1_label_embedding表示第一更新编码向量1的标签向量，f2_label_embedding表示第一更新编码向量2的标签向量。

通过步骤S21～S24，先通过关系抽取模型的前馈神经网络对识别剪枝编码向量进行第一次打分得到关系抽取编码向量，再基于关系抽取编码向量依次进行分类预测、剪枝得到第一关系对编码向量，将所述第一关系对编码向量通过关系抽取模型的前馈神经网络进行第二次打分，最后基于第二次打分的分数以及第一关系对编码向量对应的关系抽取编码向量进行注意力处理和门控处理，然后再进行重新编码，最终得到第一关系对最终编码向量，从而实现了对关系抽取编码向量进行了信息的更新，融入了其他的关系抽取编码向量的信息，使得关系抽取任务有了明显的提升。

最终，在得到第一关系对最终编码向量后，通过关系抽取模型对所述第一关系对最终编码向量进行打分，并基于打分结果对所述第一关系对最终编码向量进行分类预测处理，获得关系抽取结果。

S240、将所述识别剪枝编码向量输入至共指消解模型进行两次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系。

具体地，所述步骤S240还可以包括步骤S241至步骤S242：

S241、通过共指消解模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得共指消解编码向量。

具体地，共指消解模型与实体识别模型共用一个用于打分的前馈神经网络；

步骤S241包括：将识别剪枝编码向量输入至共指消解模型中，通过前馈神经网络对识别剪枝编码向量进行第一次打分，得到识别剪枝编码向量的分数，然后将分数大于或等于预设阈值的识别剪枝编码向量作为共指消解编码向量。

本实施例通过对识别剪枝编码向量进行打分，在实体识别任务的基础上对识别剪枝编码向量进一步进行处理，有助于进一步为后续共指消解任务的执行做好铺垫。

S242、基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量，通过所述共指消解模型对所述第二关系对最终编码向量进行共指消解处理，获得共指消解结果，并基于所述共指消解结果确定所述候选实体片段中词语之间的共指关系。

具体地，步骤S242中基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量，包括下述步骤S2421至步骤S2423：

S2421、基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量。

具体地，可以将所述共指消解编码向量的分类标签进行编码处理，生成第二标签向量；基于任意两个所述共指消解编码向量及其对应的所述第二标签向量，获得任意两个所述共指消解编码向量的第二初始关系对编码向量。

在实际应用中，每一个第二关系对编码向量均由两个共指消解编码向量以及两个共指消解取编码向量对应的分类标签编码向量组成，换而言之，可以将候选实体片段中两个词语的共指消解编码向量以及两个词语各自的第二标签向量进行拼接，获得第二关系对编码向量，如下所示：

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第二关系对编码向量，span1_embeddings表示共指消解编码向量1，span2_embeddings表示共指消解编码向量2，span1_label_embedding表示共指消解编码向量1的标签向量，span2_label_embedding表示共指消解编码向量2的标签向量。

需要说明的是，分类标签属于候选实体片段的特征信息的一种，除此之外，在生成第二关系对编码向量时还可以结合其他类型的特征信息，如距离等，可视具体情况而定，本申请对此不做限制。

例如，可以将候选实体片段中两个词语的共指消解编码向量、两个词语各自的第二标签向量以及两个词语之间的距离特征向量进行拼接，获得第二关系对编码向量，如下所示：

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第二关系对编码向量，span1_embeddings表示共指消解编码向量1，span2_embeddings表示共指消解编码向量2，antecedent_distance_embeddings表示共指消解编码向量1与共指消解编码向量2的距离特征向量，span1_label_embedding表示共指消解编码向量1的标签向量，span2_label_embedding表示共指消解编码向量2的标签向量。

本实施例基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二关系对编码向量，有助于提高共指消解任务的执行效率和效果。

在另一种具体实施方案中，步骤S2421包括：将所述共指消解编码向量的分类标签进行编码处理，生成第二标签向量；基于任意两个共指消解编码向量在候选实体片段中的位置，确定该任意两个共指消解编码向量之间的语义向量；基于任意两个共指消解编码向量、该任意两个共指消解编码向量之间的语义向量以及每个共指消解编码向量对应的第二标签向量，获得任意两个共指消解编码向量的第二初始关系对编码向量。

具体地，确定该任意两个共指消解编码向量之间的语义向量，包括：确定该任意两个共指消解编码向量之间的多个词向量；将所述任意两个共指消解编码向量之间的多个词向量进行池化处理或者注意力处理，得到对应的语义向量。

在具体应用中，对于候选实体片段[z1，z2，…，zx-1，zx]，[z1，z2]是共指消解编码向量span3，[zx-1，zx]是共指消解编码向量span4，那么其中的[z3，…，zx-2]为该任意两个共指消解编码向量span3和span4之间的词向量，将两个共指消解编码向量span3和span4之间的词向量[z3，…，zx-2]进行池化处理或者注意力处理，得到对应的语义向量，从而可以增加第二初始关系对编码向量的语义信息，增强第二初始关系对编码向量的表达能力。

对于池化处理，需要说明的是，对于词向量[z3，…，zx-2]，如果全部保留这些信息就会有信息冗余，增加了计算难度，这时候池化处理就相当于降维操作，以实现对向量进行压缩，保留主要特征。池化处理是在一个小矩阵区域内，取该区域的最大值或平均值来代替该区域，从而得到最终的语义向量。该小矩阵的大小可以根据实际需要而设置。

具体地，第二初始关系对编码向量的计算如下：

span_pair_embeddings＝torch.cat([span3_embeddings，span4_embeddings，span3_embeddings*span4_embeddings，segment_info，span3_label_embedding，span4_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，span_pair_embeddings表示第二初始关系对编码向量，span3_embeddings表示共指消解编码向量1，span4_embeddings表示共指消解编码向量2，segment_info表示共指消解编码向量1与共指消解编码向量2之间的词向量，span3_label_embedding表示共指消解编码向量1的标签向量，span4_label_embedding表示共指消解编码向量2的标签向量。

需要说明的是，在计算span_pair_embeddings的过程中，并非所有的词之间都可以产生关系，例如在一段文字里，隔了很远的词之间基本就不会产生关系了。所以本实施例中就设定了一个距离阈值，若span3和span4之间的距离超过阈值，便直接将该span3和span4的span_pair_embeddings进行剪枝。距离阈值的数值可以根据实际需求而设置，例如设置距离阈值为60个词单元。

S2422、对所述第二初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量。

具体地，步骤S2422包括：

在实际应用中，可以通过softmax函数确定第二初始关系对编码向量的类别，softmax函数的公式如公式(6)所示，在此便不再赘述。

具体地，共指消解处理的过程包括打分与分类预测处理，换而言之，通过所述共指消解模型对所述第二关系对编码向量进行打分，并基于打分结果对所述第二关系对编码向量进行分类预测处理，即完成共指消解处理，获得共指消解结果，并确定词语之间的共指关系。

本实施例通过对第二关系对编码向量进行共指消解处理，确定词语之间的共指关系，可以共指消解任务的准确率，进而有效提高词语共指关系确定的准确率。

S2423、将所述第二关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第二关系对编码向量得到第二关系对最终编码向量。

本实施例中，步骤S2423中的基于第二次打分的分数以及所述第二关系对编码向量得到第二关系对最终编码向量，包括下述步骤S31～S35：

S31、基于对第二关系对编码向量的第二次打分的分数生成第二权重分数。

第二权重分数的计算参见下述公式(12)：

s(i，j)＝s_m(i)+s_m(i)+s_a(i，j) (12)

其中，i，j代表共指消解编码向量；

s_m(i)代表第二关系对编码向量中的共指消解编码向量i可以作为一个实体的分数；

s_m(j)代表第二关系对编码向量中的共指消解编码向量j可以作为一个实体的分数；

s_a(i,j)代表共指消解编码向量j可能是共指消解编码向量i的先行词的分数；

s(i,j)代表第二权重分数。

S32、基于第二权重分数对所述第二关系对编码向量对应的共指消解编码向量依次进行注意力处理，得到第二中间向量。

第二中间向量的计算参见下述公式(13)和(14)：

其中，g代表第二关系对编码向量对应的共指消解编码向量；

P代表注意力的权重系数；

a代表第二中间向量；

s代表第一权重分数；

i，j均代表[0,n]集合中的一个参量。

S33、基于所述第二中间向量和所述第二关系对编码向量对应的共指消解编码向量进行门控处理，得到第二门控向量。

第二门控向量的计算参见下述公式(15)：

其中，σ表示逻辑sigmod函数，

W_f表示权重参数，

代表第i个第二中间向量；

代表第i个第二关系对编码向量对应的共指消解编码向量；

i代表[0,n]集合中的一个参量；

代表第i个第二门控向量。

S34、根据第二门控向量、第二中间向量以及所述第二关系对编码向量对应的共指消解编码向量进行重新编码，生成重新编码后的第二更新编码向量。

具体地，第一更新编码向量的计算公式如下式(16)所示：

其中，

代表第i个第二门控向量；

代表第i个第二中间向量；

代表第i个第二关系对编码向量对应的共指消解编码向量；

代表第i个第二更新编码向量。

根据此公式可知，第二更新编码向量的计算是利用第二门控向量来重新对第二关系对编码向量对应的共指消解编码向量进行再次编码，这个数值是(0，1)之间。可以理解为新得到的第二更新编码向量有多少(f)来自原来的共指消解编码向量

有多少(1-f)来自第二中间向量

S35、基于所述第二更新编码向量以及所述第二更新编码向量的分类标签，生成第二关系对最终编码向量。

具体地，第二关系对最终编码向量的计算参见下述公式：

fspan_pair_embeddings＝torch.cat([f3_embeddings，f4_embeddings，f3_embeddings*f4_embeddings，segment_info，f3_label_embedding，f4_label_embedding]，-1)。

其中，torch.cat是用于将两个或多个向量拼接在一起的函数，fspan_pair_embeddings表示第二关系对最终编码向量，f3_embeddings表示第二更新编码向量1，f4_embeddings表示第二更新编码向量2，segment_info表示第二更新编码向量1与第二更新编码向量2之间的词向量，f3_label_embedding表示第二更新编码向量1的标签向量，f4_label_embedding表示第二更新编码向量2的标签向量。

通过步骤S31～S35，本实施例先通过共指消解模型的前馈神经网络对识别剪枝编码向量进行第一次打分得到共指消解编码向量，再基于共指消解编码向量依次进行分类预测、剪枝得到第二关系对编码向量，将所述第二关系对编码向量通过共指消解模型的前馈神经网络进行第二次打分，最后基于两次打分的分数以及第二关系对编码向量对应的共指消解编码向量进行注意力处理和门控处理，然后进行重新编码得到第二更新编码向量，最终基于第二更新编码向量以及第二更新编码向量的分类标签得到第二关系对最终编码向量，从而实现了对共指消解编码向量进行了信息的更新，融入了其他的共指消解编码向量的信息，使得共指消解任务有了明显的提升。

最终，在得到第二关系对最终编码向量后，通过所述共指消解模型对所述第二关系对最终编码向量进行打分，并基于打分结果对所述第二关系对最终编码向量进行分类预测处理，获得共指消解结果。

另外，本实施例在得到第一关系对最终编码向量以及第二关系对最终编码向量后，将第一关系对最终编码向量以及第二关系对最终编码向量输入至实体识别模型进行实体识别处理，使得实体识别任务的评价指标(average F1)有了明显的提升。

本实施例提供的基于多任务模型的词语处理方法，首先通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量，以减少候选实体片段编码向量中的负例，再将识别剪枝编码向量分别输入至关系抽取模型和共指消解模型进行两次打分，分别得到第一关系对最终编码向量和第二关系对最终编码向量，然后将第一关系对最终编码向量通过关系抽取模型进行处理确定候选实体片段中词语之间的关系、将第二关系对最终编码向量通过共指消解模型进行处理确定候选实体片段中词语之间的共指关系，从而通过两次打分分别对关系抽取任务和共指消解任务增加约束，提升了关系抽取模型和共指消解模型的评价指标，可以更加准确地分别获取候选实体片段中词语之间的关系以及共指关系。

另外，本实施例中通过根据任意两个关系抽取编码向量在候选实体片段中的语义关系，分别获得任意两个关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量，从而在获取关系抽取结果的过程中，引入了语义关系的考量，从而可以使关系抽取结果更加准确。

参见图3，本实施例提供一种基于多任务模型的词语处理方法，包括：

S310、获取候选实体片段，并基于所述候选实体片段生成候选实体片段编码向量。

其中，步骤S310与前述实施例中的步骤S210相同，关于步骤S310的具体解释参见前述实施例的详述，在此便不再赘述。

S311、将所述候选实体片段编码向量输入至实体识别模型中，通过所述前馈神经网络对所述候选实体片段编码向量进行打分。

S312、基于所述候选实体片段编码向量的分数对所述候选实体编码向量进行分类处理，获得所述候选实体编码向量的分类标签，并对所述候选实体编码向量进行剪枝，获得识别剪枝编码向量。

S313、通过关系抽取模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得关系抽取编码向量。

具体地，步骤S313包括：将所述识别剪枝编码向量输入至所述关系抽取模型中，通过所述前馈神经网络对所述识别剪枝编码向量进行第一次打分，得到所述识别剪枝编码向量的分数；将分数大于或等于预设阈值的识别剪枝编码向量作为关系抽取编码向量。

S314、基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量。

具体地，步骤S314包括下述步骤S3141～S3143：

S3141、基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量。

S3142、对所述第一初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量。

S3143、将所述第一关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及第一关系对编码向量得到第一关系对最终编码向量。

具体地，对于步骤S3141～S3143的详细解释，参见前述实施例的步骤S2321至步骤S2323的详细内容，在此便不再赘述。

S315、通过所述关系抽取模型对所述第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，并基于所述关系抽取结果确定所述候选实体片段中词语之间的关系。

具体地，步骤S315包括：通过所述关系抽取模型对所述第一关系对最终编码向量进行打分，并基于打分结果对所述第一关系对最终编码向量进行分类预测处理，获得关系抽取结果。

S316、通过共指消解模型对所述识别剪枝编码向量进行第一次打分，并基于分值对所述识别剪枝编码向量进行剪枝，获得共指消解编码向量。

步骤S316包括：将所述识别剪枝编码向量输入至所述共指消解模型中，通过所述前馈神经网络对所述识别剪枝编码向量进行第一次打分，得到所述识别剪枝编码向量的分数；将分数大于或等于预设阈值的识别剪枝编码向量作为共指消解编码向量。

S317、基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量。

具体地，步骤S317包括步骤S3171～S3173：

S3171、基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量。

S3172、对所述第二初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量。

S3173、将所述第二关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及第二关系对编码向量得到第二关系对最终编码向量。

具体地，对于步骤S3171～S3173的详细解释，参见前述实施例的步骤S2421至步骤S2423的详细内容，在此便不再赘述。

S318、通过所述共指消解模型对所述第二关系对最终编码向量进行共指消解处理，获得共指消解结果，并基于所述共指消解结果确定所述候选实体片段中词语之间的共指关系。

具体地，步骤S318包括：通过所述共指消解模型对所述第二关系对最终编码向量进行打分，并基于打分结果对所述第二关系对最终编码向量进行分类预测处理，获得共指消解结果。

S319、将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理。

本实施例中，通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量，以减少候选实体片段编码向量中的负例，再将识别剪枝编码向量分别输入至关系抽取模型和共指消解模型进行两次打分，分别得到第一关系对最终编码向量和第二关系对最终编码向量，然后将第一关系对最终编码向量通过关系抽取模型进行处理确定候选实体片段中词语之间的关系、将第二关系对最终编码向量通过共指消解模型进行处理确定候选实体片段中词语之间的共指关系，从而通过两次打分分别对关系抽取任务和共指消解任务增加约束，提升了关系抽取模型和共指消解模型的评价指标，可以更加准确地分别获取候选实体片段中词语之间的关系以及共指关系。

如图4所示，本实施例提供一种多任务模型的训练方法，包括步骤S410至步骤S440。

S410、获取至少两个样本候选实体对以及每个所述样本候选实体对的分类标签，并基于每个样本候选实体对的样本候选实体生成样本候选实体编码向量。

具体内容可以参见上述实施例，在此不再赘述。

S420、通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得样本识别剪枝编码向量。

具体地，假设共存在n类的样本候选实体片段(n≥1，且n为整数)，那么不属于上述n个类别的样本候选实体片段均属于负例，基于所述样本候选实体片段编码向量的分数对所述样本候选实体编码向量进行分类处理，获得每一个样本候选实体片段编码向量的分类标签，进而可以获得每一个样本候选实体片段编码向量所属的类别，按照预设的比例剪枝掉负例中的部分样本候选实体片段编码向量后，剩余的其他样本候选实体片段编码向量即为识别剪枝编码向量。其中，负例中被剪枝掉的样本候选实体片段编码向量的比例可以视具体情况而定，如六分之一、五分之一等均可，本申请对此不做限制。

本实施例通过对样本候选实体编码向量进行分类处理，并剪枝掉负例中的部分编码向量，可以使模型同时对于呈适当比例的正例和负例进行学习，即从正确和错误两个方面同时进行学习，有助于提高模型训练效果。

S430、分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量。

具体地，步骤S430包括：

S431、将所述样本识别剪枝编码向量输入至所述关系抽取模型中，通过所述关系抽取模型对所述样本识别剪枝编码向量进行第一次打分，并基于分值对所述样本识别剪枝编码向量进行剪枝，获得样本关系抽取编码向量，基于所述样本关系抽取编码向量进行第二次打分生成第一样本关系对最终编码向量。

具体地，步骤S431包括下述步骤S4311～S4313：

S4311、基于样本关系抽取编码向量以及所述样本关系抽取编码向量的分类标签，获得第一初始样本关系对编码向量(span_pair_embedding)。

其中，对于第一初始样本关系对编码向量的生成过程，可以参见前述实施例的第一初始关系对编码向量的生成过程，在此便不再赘述。

S4312、对所述第一初始样本关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始样本关系对编码向量进行剪枝，获得第一样本关系对编码向量。

S4313、将所述第一样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于第二次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量。

具体地，步骤S4313中的基于两次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量，包括：

S41、基于所述第一样本关系对编码向量的第二次打分的分数生成第一样本权重分数。

S42、基于第一样本权重分数对所述第一样本关系对编码向量对应的样本关系抽取编码向量依次进行注意力处理，得到第一样本中间向量。

S43、基于所述第一样本中间向量和所述第一样本关系对编码向量对应的样本关系抽取编码向量进行门控处理，得到第一样本门控向量。

S44、根据所述第一样本门控向量、所述第一样本中间向量以及所述第一样本关系对编码向量对应的样本关系抽取编码向量进行重新编码，生成重新编码后的第一样本更新编码向量。

S45、基于所述第一样本更新编码向量以及所述第一样本更新编码向量的分类标签，生成第一样本关系对最终编码向量。

其中，对于第一样本关系对最终编码向量的生成过程，可以参见前述实施例的第一关系对最终编码向量的生成过程，即步骤S21～S25，在此便不再赘述。

S432、将所述样本识别剪枝编码向量输入至所述共指消解模型中，通过共指消解模型对所述样本识别剪枝编码向量进行第一次打分，并基于分值对所述样本识别剪枝编码向量进行剪枝，获得样本共指消解编码向量，基于所述样本共指消解编码向量进行第二次打分生成第二样本关系对最终编码向量。

具体地，步骤S432中基于所述样本共指消解编码向量进行第二次打分生成第二样本关系对最终编码向量，包括：

S4321、基于样本共指消解编码向量以及所述样本共指消解编码向量的分类标签，获得第二初始样本关系对编码向量(span_pair_embedding)。

S4322、对所述第二初始样本关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始样本关系对编码向量进行剪枝，获得第二样本关系对编码向量。

S4323、将所述第二样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于两次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量。

具体地，步骤S4323中基于两次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量，包括下述步骤S51～S54：

S51、基于所述第二样本关系对编码向量的第二次打分的分数生成第二样本权重分数。

S52、基于第二样本权重分数对所述第二样本关系对编码向量对应的样本共指消解编码向量依次进行注意力处理，得到第二样本中间向量。

S53、基于所述第二样本中间向量和所述第二样本关系对编码向量对应的样本共指消解编码向量进行门控处理，得到第二样本门控向量。

S54、根据所述第二样本门控向量、所述第二样本中间向量以及所述第二样本关系对编码向量对应的样本共指消解编码向量进行重新编码，生成重新编码后的第二样本更新编码向量。

S55、基于所述第二样本更新编码向量以及所述第二样本更新编码向量的分类标签，生成第二样本关系对最终编码向量。

其中，对于第二样本关系对最终编码向量的生成过程，可以参见前述实施例的第二关系对最终编码向量的生成过程，即步骤S31～S35，在此便不再赘述。

S440、基于所述第一样本关系对最终编码向量和所述第二样本关系对最终编码向量分别确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，并对所述实体识别模型、所述关系抽取模型和所述共指消解模型进行训练。

具体地，步骤S440包括下述步骤S441～S443：

S441、基于所述第一样本关系对最终编码向量的分值以及分类标签、所述第二样本关系对最终编码向量的分值以及分类标签利用交叉熵损失函数计算实体识别模型的损失值。

S442、基于第一样本关系对最终编码向量的分值与第一样本关系对最终编码向量的分类标签利用交叉熵损失函数计算关系抽取模型的损失值。

具体地，第一样本关系对最终编码向量包括两个样本关系抽取编码向量，步骤S442包括下述步骤S4421～S4422：

S4421、在所述分类标签为对称关系标签的情况下，将所述第一样本关系对最终编码向量的两个样本关系抽取编码向量进行反向排列，生成反向第一样本关系对最终编码向量。

在一种具体使用场景下，在分类标签为对称关系标签的情况下，比如conjunction，在标注的时候通常是(span1，span2，conjunction)，所以可以做一个数据增强，增加反向第一样本关系对编码向量(span2，span1)得到(span2，span1，conjunction)后再后续计算损失值。

S4422、将所述第一样本关系对最终编码向量的分值以及对应的分类标签、所述反向第一样本关系对最终编码向量以及对应的分类标签分别利用交叉熵损失函数计算关系抽取模型的损失值。

具体地，分别基于实体识别模型、关系抽取模型、共指消解的损失值，自模型的输出层开始至输入层为止，反向调整模型中每一层神经元节点的权重值，对模型进行训练。

本实施例中通过根据任意两个样本关系抽取编码向量在候选实体片段中的语义关系，分别获得任意两个样本关系抽取编码向量的正向语义关系的第一样本关系对最终编码向量和反向语义关系的反向第一样本关系对最终编码向量，从而在训练过程中引入了语义关系的考量，从而可以使关系抽取结果更加准确。

S443、基于第二样本关系对最终编码向量的分值与第二样本关系对最终编码向量的分类标签利用交叉熵损失函数计算共指消解模型的损失值。

例如，在实体识别模型训练过程中，经过交叉熵计算得到的一组损失值的结果可能是[-0.0000，-6.8651，-9.8858，-9.3611，-9.4160，-8.8986，-10.0036]，其中，7个数分别对应着数字0～6，每个数字代表一个分类标签。

通过F.softmax变成分类概率[9.9856e-01，1.0421e-03，5.0818e-05，8.5878e-05，8.1292e-05，1.3638e-04，4.5174e-05]，最后取最大值就是最终损失值。

交叉熵损失函数的公式如下所示：

交叉熵是表示两个概率分布p、q的差异，其中p表示真实分布即样本识别剪枝编码向量、第一样本关系对编码向量和第二样本关系对编码向量对应的分类标签的编码向量，q表示非真实分布即样本识别剪枝编码向量、第一样本关系对编码向量和第二样本关系对编码向量，H(p，q)表示损失值。

本申请提供的多任务模型的训练方法，在训练过程中首先将关系抽取任务、共指消解任务、实体识别任务进行有机结合，再分别对关系抽取模型、共指消解模型和实体识别模型进行训练，可以有效提高模型训练的效果，提高关系抽取模型、共指消解模型和实体识别模型的性能。

如图5所示，本实施例公开了一种基于多任务模型的词语处理装置，包括：

实体片段获取模块510，被配置为获取候选实体片段，并基于所述候选实体片段生成候选实体片段编码向量；

实体识别剪枝模块520，被配置为通过实体识别模型对所述候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得识别剪枝编码向量；

关系抽取处理模块530，被配置为将所述识别剪枝编码向量输入至关系抽取模型进行两次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系；

共指消解处理模块540，被配置为将所述识别剪枝编码向量输入至共指消解模型进行两次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系。

可选地，所述关系抽取处理模块530，进一步被配置为：

可选地，所述共指消解处理模块540，进一步被配置为：

所述实体识别剪枝模块520，进一步被配置为：

所述关系抽取处理模块530，进一步被配置为：

所述共指消解处理模块540，进一步被配置为：

可选地，所述关系抽取处理模块530，进一步被配置为：

确定该任意两个关系抽取编码向量之间的多个词向量；

可选地，所述关系抽取处理模块530，进一步被配置为：

根据任意两个所述关系抽取编码向量在所述候选实体片段中的语义关系，分别获得任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量。

可选地，所述关系抽取处理模块530，进一步被配置为：通过前馈神经网络对任意两个所述关系抽取编码向量的正向语义关系的第一初始关系对编码向量和反向语义关系的第一初始关系对编码向量进行打分，并使反向语义关系的第一初始关系对编码向量的分数小于预设阈值。

可选地，所述共指消解处理模块540，进一步被配置为：

确定该任意两个共指消解编码向量之间的多个词向量；

可选地，所述共指消解处理模块540，进一步被配置为：

可选地，所述关系抽取处理模块530，进一步被配置为：通过所述关系抽取模型对所述第一关系对最终编码向量进行打分，并基于打分结果对所述第一关系对最终编码向量进行分类预测处理，获得关系抽取结果。

可选地，所述共指消解处理模块540，进一步被配置为：通过所述共指消解模型对所述第二关系对最终编码向量进行打分，并基于打分结果对所述第二关系对最终编码向量进行分类预测处理，获得共指消解结果。

可选地，所述装置还包括：实体识别模块，被配置为：将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理。

本申请提供的基于多任务模型的词语处理装置，首先通过实体识别模型对候选实体片段编码向量进行实体识别处理和分类剪枝处理获得识别剪枝编码向量，以减少候选实体片段编码向量中的负例，再将识别剪枝编码向量分别输入至关系抽取模型和共指消解模型进行两次打分，分别得到第一关系对最终编码向量和第二关系对最终编码向量，然后将第一关系对最终编码向量通过关系抽取模型进行处理确定候选实体片段中词语之间的关系、将第二关系对最终编码向量通过共指消解模型进行处理确定候选实体片段中词语之间的共指关系，从而通过两次打分分别对关系抽取任务和共指消解任务增加约束，提升了关系抽取模型和共指消解模型的评价指标，可以更加准确地分别获取候选实体片段中词语之间的关系以及共指关系。

本实施例提供的基于多任务模型的词语处理装置，实现了关系抽取模型、共指消解模型、实体识别模型的有机结合，实现了关系抽取任务、共指消解任务、实体识别任务的有机结合，实现了上述三个任务中信息的共享，可以有效提高关系抽取、共指消解、实体识别的正确率、召回率，有效提高词语关系确定基于多任务模型的词语处理的准确率。

上述为本实施例的一种基于多任务模型的词语处理装置的示意性方案。需要说明的是，该装置的技术方案与上述的基于多任务模型的词语处理方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述基于多任务模型的词语处理方法的技术方案的描述。

如图6所示，本实施例公开了一种多任务模型的训练装置，包括：

样本片段获取模块610，被配置为获取样本候选实体片段，并基于所述样本候选实体片段生成样本候选实体片段编码向量；

样本识别剪枝模块620，被配置为通过实体识别模型对所述样本候选实体片段编码向量进行实体识别处理和分类剪枝处理，获得样本识别剪枝编码向量；

样本处理模块630，被配置为分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量；

模型训练模块640，被配置为分别基于第一样本关系对最终编码向量和第二样本关系对最终编码向量确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，并对所述实体识别模型、所述关系抽取模型和所述共指消解模型进行训练。

可选地，所述样本处理模块630进一步被配置为：

将所述第一样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于两次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量。

可选地，所述样本处理模块630进一步被配置为：

将所述第二样本关系对编码向量通过所述前馈神经网络进行第二次打分，基于两次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量。

可选地，所述样本处理模块630进一步被配置为：

可选地，模型训练模块640，进一步被配置为：

可选地，第一样本关系对最终编码向量包括两个样本关系抽取编码向量，模型训练模块640，进一步被配置为：

本申请提供的多任务模型的训练装置，在训练过程中首先将关系抽取任务、共指消解任务、实体识别任务进行有机结合，再分别对关系抽取模型、共指消解模型和实体识别模型进行训练，可以有效提高模型训练的效果，提高关系抽取模型、共指消解模型和实体识别模型的性能。

如图7所示，图7是示出了根据本说明书一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器770和处理器720。处理器720与存储器770通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.77无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。所述计算设备可以上述任一实施例所述的方法。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述基于多任务模型的词语处理方法或多任务模型的训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的基于多任务模型的词语处理方法或多任务模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述基于多任务模型的词语处理方法或多任务模型的训练方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于多任务模型的词语处理方法，其特征在于，包括：

2.根据权利要求1所述的基于多任务模型的词语处理方法，其特征在于，将所述识别剪枝编码向量输入至关系抽取模型进行两次打分，生成第一关系对最终编码向量，将所述第一关系对最终编码向量通过所述关系抽取模型进行处理，确定所述候选实体片段中词语之间的关系，包括：

3.根据权利要求1所述的基于多任务模型的词语处理方法，其特征在于，将所述识别剪枝编码向量输入至共指消解模型进行两次打分，生成第二关系对最终编码向量，将所述第二关系对最终编码向量通过所述共指消解模型进行处理，确定所述候选实体片段中词语之间的共指关系，包括：

4.根据权利要求1所述的基于多任务模型的词语处理方法，其特征在于，所述实体识别模型与所述关系抽取模型、共指消解模型共用一个用于打分的前馈神经网络；

5.根据权利要求2所述的基于多任务模型的词语处理方法，其特征在于，所述关系抽取模型与所述实体识别模型共用一个用于打分的前馈神经网络；

6.根据权利要求3所述的基于多任务模型的词语处理方法，其特征在于，所述共指消解模型与所述实体识别模型共用一个用于打分的前馈神经网络；

7.根据权利要求5所述的基于多任务模型的词语处理方法，其特征在于，所述基于所述关系抽取编码向量进行第二次打分生成第一关系对最终编码向量，包括：

8.根据权利要求7所述的基于多任务模型的词语处理方法，其特征在于，基于第二次打分的分数以及所述第一关系对编码向量得到第一关系对最终编码向量，包括：

9.根据权利要求7所述的基于多任务模型的词语处理方法，其特征在于，所述对所述第一初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第一初始关系对编码向量进行剪枝，获得第一关系对编码向量，包括：

10.根据权利要求9所述的基于多任务模型的词语处理方法，其特征在于，所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量，包括：

11.根据权利要求9所述的基于多任务模型的词语处理方法，其特征在于，所述基于关系抽取编码向量以及所述关系抽取编码向量的分类标签，获得第一初始关系对编码向量，包括：

12.根据权利要求11所述的基于多任务模型的词语处理方法，其特征在于，确定该任意两个关系抽取编码向量之间的语义向量，包括：

确定该任意两个关系抽取编码向量之间的多个词向量；

13.根据权利要求10或11所述的基于多任务模型的词语处理方法，其特征在于，获得任意两个所述关系抽取编码向量的第一初始关系对编码向量，包括：

14.根据权利要求13所述的基于多任务模型的词语处理方法，其特征在于，

通过前馈神经网络对所述第一初始关系对编码向量进行打分，获得第一初始关系对编码向量的分数，包括：

15.根据权利要求6所述的基于多任务模型的词语处理方法，其特征在于，所述基于所述共指消解编码向量进行第二次打分生成第二关系对最终编码向量，包括：

16.根据权利要求15所述的基于多任务模型的词语处理方法，其特征在于，基于第二次打分的分数以及所述第二关系对编码向量得到第二关系对最终编码向量，包括：

17.根据权利要求15所述的基于多任务模型的词语处理方法，其特征在于，基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量，包括：

18.根据权利要求15所述的基于多任务模型的词语处理方法，其特征在于，基于共指消解编码向量以及所述共指消解编码向量的分类标签，获得第二初始关系对编码向量，包括：

19.根据权利要求18所述的基于多任务模型的词语处理方法，其特征在于，确定该任意两个共指消解编码向量之间的语义向量，包括：

确定该任意两个共指消解编码向量之间的多个词向量；

20.根据权利要求17或18所述的基于多任务模型的词语处理方法，其特征在于，对所述第二初始关系对编码向量进行分类预测处理，基于所述分类预测的结果按照预设比例对所述第二初始关系对编码向量进行剪枝，获得第二关系对编码向量，包括：

21.根据权利要求2所述的基于多任务模型的词语处理方法，其特征在于，通过所述关系抽取模型对所述第一关系对最终编码向量进行关系抽取处理，获得关系抽取结果，包括：

通过所述关系抽取模型对所述第一关系对最终编码向量进行打分，并基于打分结果对所述第一关系对最终编码向量进行分类预测处理，获得关系抽取结果。

22.根据权利要求3所述的基于多任务模型的词语处理方法，其特征在于，通过所述共指消解模型对所述第二关系对最终编码向量进行共指消解处理，获得共指消解结果，包括：

通过所述共指消解模型对所述第二关系对最终编码向量进行打分，并基于打分结果对所述第二关系对最终编码向量进行分类预测处理，获得共指消解结果。

23.根据权利要求1或8或16所述的基于多任务模型的词语处理方法，其特征在于，所述方法还包括：

将所述第一关系对最终编码向量以及所述第二关系对最终编码向量输入至所述实体识别模型进行实体识别处理。

24.一种多任务模型的训练方法，其特征在于，包括：

25.根据权利要求24所述的多任务模型的训练方法，其特征在于，分别将所述样本识别剪枝编码向量输入至关系抽取模型和共指消解模型中进行两次打分处理，获得第一样本关系对最终编码向量和第二样本关系对最终编码向量，包括：

26.根据权利要求25所述的多任务模型的训练方法，其特征在于，基于所述样本关系抽取编码向量进行第二次打分生成第一样本关系对最终编码向量，包括：

27.根据权利要求26所述的多任务模型的训练方法，其特征在于，基于第二次打分的分数以及所述第一样本关系对编码向量得到第一样本关系对最终编码向量，包括：

28.根据权利要求25所述的多任务模型的训练方法，其特征在于，基于所述样本共指消解编码向量进行第二次打分生成第二样本关系对最终编码向量，包括：

29.根据权利要求28所述的多任务模型的训练方法，其特征在于，基于第二次打分的分数以及所述第二样本关系对编码向量得到第二样本关系对最终编码向量，包括：

30.根据权利要求25所述的多任务模型的训练方法，其特征在于，分别基于所述第一样本关系对最终编码向量和所述第二样本关系对最终编码向量确定所述实体识别模型、所述关系抽取模型和所述共指消解模型的损失值，包括：

31.根据权利要求30所述的多任务模型的训练方法，其特征在于，所述第一样本关系对最终编码向量包括两个样本关系抽取编码向量；

32.一种基于多任务模型的词语处理装置，其特征在于，包括：

33.一种多任务模型的训练装置，其特征在于，包括：

34.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-23或者24-31任意一项所述方法的步骤。

35.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-23或者24-31任意一项所述方法的步骤。