CN113641819B

CN113641819B - 基于多任务稀疏共享学习的论辩挖掘系统及方法

Info

Publication number: CN113641819B
Application number: CN202110912198.0A
Authority: CN
Inventors: 廖祥文; 魏冬春; 吴君毅; 翁钰晨; 郑鹏程
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-08-22
Anticipated expiration: 2041-08-10
Also published as: CN113641819A

Abstract

本发明提出一种基于多任务稀疏共享学习的论辩挖掘系统及方法，包括：编码器模块，用于使用双向长短时记忆神经网络学习上下文信息；双路注意力编码模块，用于使用自注意力和外部注意力并行对词向量进行特征提取，获得不同角度的单词语义关注度，强化单词之间的关系建模；稀疏共享学习模块，用于对获得句子向量的编码模块进行多任务学习，为不同任务生成任务特定的稀疏参数矩阵，以解决多任务学习负迁移影响，并获得句子级编码表示；多任务标签输出模块，用于使用任务特定的分类器完成不同任务的分类结果预测。能够自动地学习多个任务的稀疏共享结构，并利用各自任务特定的子网络进行联合训练，有效避免多任务学习的负迁移现象。

Description

基于多任务稀疏共享学习的论辩挖掘系统及方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于多任务稀疏共享学习的论辩挖掘系统及方法。能够自动地学习多个任务的稀疏共享结构，并利用各自任务特定的子网络进行联合训练，有效避免多任务学习的负迁移现象。

背景技术

论辩挖掘旨在从非结构化的文本中提取论点并判断其类型与逻辑关系的研究领域，最终目的是将非结构化的文本数据转化为可供计算机处理的结构化数据。论辩挖掘任务一般可分为以下四个子任务：(1)从输入文本中提取带有论辩性的文本片段或句子，称为论点部件。(2)对提取的论点部件进行分类，一般可将这些单元分为“主张”和“前提”。(3)识别论点部件之间是否存在逻辑关系。(4)对存在的逻辑关系进行分类，通常分为支持关系和反对关系。

早期，绝大多数研究着重于某个子任务展开研究，仅针对单个子任务进行建模训练，而忽略了子任务间的关联信息，导致系统性能较低。

目前，论辩挖掘三个子任务联合建模研究的工作相对较少，大多是采用基于流水线或者深度神经网络方法。流水线方法使用上一个任务的预测结果作为下一个任务的输入，如果上层任务出错将影响下层任务，也就是容易出现错误传播问题。部分工作将多个论辩挖掘子任务进行联合建模，多个任务共用一个编码层，预测部分使用任务特定的分类器。而这种多任务联合学习方法通常采用硬共享，多个任务对共享的参数矩阵进行训练，通过共享信息，相互补充，可以提升彼此的表现。但多任务学习并不总能带来收益，有时联合学习多个任务会对其中某个任务带来性能损失，当任务之间相关性比较弱的情况，容易出现负迁移现象。

发明内容

为了弥补现有技术的空白和不足，本发明的目的在于提供一种基于多任务稀疏共享学习的论辩挖掘系统及方法，可以自动地学习多个任务的稀疏共享结构。因为每个论辩挖掘子任务的子网络是使用该任务的数据集学习出来的。对于相关性强的子任务，其子网络的参数重叠率较高，而弱相关的子任务之间抽取的子网络差异就比较大。

本发明具体采用以下技术方案：

一种基于多任务稀疏共享学习的论辩挖掘系统，其特征在于，包括：

编码器模块，用于使用双向长短时记忆神经网络学习上下文信息，以提取上下文信息的文本单词词向量；

双路注意力编码模块，用于使用自注意力和外部注意力并行对词向量进行特征提取，获得不同角度的单词语义关注度，强化单词之间的关系建模；

稀疏共享学习模块，用于对获得句子向量的编码模块进行多任务学习，为不同任务生成任务特定的稀疏参数矩阵，以解决多任务学习负迁移影响，并获得句子级编码表示；

多任务标签输出模块，用于使用任务特定的分类器完成不同任务的分类结果预测。

进一步地，所述编码器模块根据数据集构造的词典从glove静态预训练词向量文档中获得词嵌入矩阵；输入文本的单词经过词嵌入矩阵获得单词的词向量，之后利用双向LSTM对历史上下文进行编码；编码器公式如下：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_4-1+b°)

u_t＝tanh(W⁽ⁿ⁾x_t+I⁽ⁿ⁾h_t-1+bⁿ)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中x_t为t时刻输入的句子上第t个单词词向量，σ表示sigmoid激活函数，W和I表示权重矩阵，b表示偏差向量，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，在每个时间步都会输出隐藏层状态h_t，其中遗忘门f_t，记忆门i_t与输出门o_t由上个时刻的隐藏层状态h_t-1和当前输入x_t计算出来，最后将前向和后向LSTM的隐藏层单元和/>连接为/>作为输出，以获得两个单词上下文信息。

进一步地，所述双路注意力编码模块融合两种不同角度的注意力机制，分别为多头自注意力机制和引入标题信息的外部注意力机制；

所述多头自注意力机制为每个输入词向量产生一个向量，该向量在其邻近向量上加权求和，其中权重由单词之间的关系或连通性决定；多头自注意力机制的定义公式如下：

MultiHead(Q，K，V)＝Concat(head₁，......，head_n)

其中Q、K、V表示向量矩阵，分别是query，key，value的简写，对于自注意力机制，Q、K、V都是来自于同一个待编码的输入向量；其中，注意力具体计算公式如下：

其中Z是归一化因子，通过q_t这个query与各个k_s内积，使用softmax得到qt与各个vs的相似度，然后加权求和，得到最终的词向量表示h_t；其中因子起调节作用，用于使内积不至于太大；

对于所述引入标题信息的外部注意力机制，先将标题的词向量经过双向LSTM进行编码：

h_i＝BiLSTM(s_i，h_t-1)

其中输入s_i为文章标题句子中第i个单词词向量，每个单词经过BiLSTM编码后都会生成一个向量，选择句子最后一个单词的词向量作为整个句子的表示u_t＝h_n，n为标题长度；将标题句子向量与编码层隐藏层输出的文档词向量进行相似度计算，最后获得引入标题信息的注意力加权向量，计算公式如下：

u_i＝tanh(W_sx_i+b_s)

s_i＝a_i·x_i

其中x代表输入句子的第i个单词，将输入词向量先经过全连接层和非线性函数tanh得到单词的隐藏层向量u_i，接着分别将每个单词的词向量u_i和标题句子向量u_t点乘，经过softmax归一化后得到代表单词重要程度的权重a_i，权重与输入单词向量相乘得到加权后的输入词向量；

最终，将两路注意力结果拼接输入CNN层进行特征提取，将提取后的特征向量再经过Highway高速网络的转换门过滤有价值的特征，其具体体现如下：

其中，g表示非线性函数，t＝σ(W_Ty+b_T)称为转换门，(1-t)称为进位门。

进一步地，所述稀疏共享学习模块的基础网络由两个并行的lstm-minus对输入句子向量进行编码获得片段表示，之后经过一个融合层获得句子的表示向量；

lstm-minus通过向量信息差异计算片段表示，其计算公式如下：

h_1：T＝BiLSTM(x_1：T)

其中，x_1：T表示输入句子长度为T的单词词向量，经过双向LSTM编码获得隐藏层表示；通过将开始和结束位置的隐藏层向量进行相减，获得差异信息，以及对两个方向的隐藏层信息进行差减计算，包括和/>并且将子句前一个单词的隐藏向量作为子句的上文信息，以及考虑两个方向/>最终的子句表示由上述4个向量的拼接构成。

进一步地，在所述多任务标签输出模块中，对于论点部件类型分类和论辩关系类型预测采用的分类器公式如下：

y_i＝softmax(h_iW_t+h_t)

将句子向量输入到线性层后使用softmax得到标签的预测值。

对于关系识别任务，先用一层BiLSTM对句子向量进行任务特定的编码，获得句子间的上下文信息，之后使用两个参数不同的多层感知机构造一个T×T的关系矩阵，其中T表示文档中句子个数，最后使用最小生成树算法得到最终的关系对预测值。

进一步地，在编码器在训练过程中引入对抗训练的方式，具体方法是在每一步计算完梯度后，在编码层参数上根据梯度的下降的反方向加噪声后再训练一步，用于使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失，以此来鼓励共享编码器提取共享特征。

进一步地，输入文本向量经过双路注意力层编码后的输出将作为稀疏共享学习模块的网络的输入；输入是句子的单词向量，先经过两个并行的lstm-minus分别获得句子论辩标识的片段表示和论辩部件片段表示，之后将两个片段表示输入双向LSTM进行融合，获得句子表示。

进一步地，将所述稀疏共享学习模块提供的网络模型作为三个论辩挖掘子任务的共享模块进行联合训练，其中多任务学习方式采用的是稀疏共享的方式；

所述多任务稀疏共享学习包括以下过程：

假设基础网络参数为则任务t对应的子网络表示为/>其中M_t表示mask矩阵；在正式训练之前，每个任务独立对基础网络进行迭代剪枝，获得任务特定的mask矩阵；具体剪枝方式采用迭代数量级剪枝方法。

进一步地，所述迭代数量级剪枝方法具体包括以下步骤：

步骤S1：将基础网络参数随机初始化为/>

步骤S2：通过剪枝技术为任务t＝1，2，3训练子网络；

步骤S3：初始化t任务的mask矩阵其中z＝1；

步骤S4：使用任务t的数据训练步，得到训练后的参数使z←z+1；

步骤S5：选择百分之α个绝对值最小的剩余参数进行剪枝，即如果需要被剪枝，让/>剪枝后得到子网络之一/>

步骤S6：如果任务t生成的子网络集为/>

步骤S7：否则，将参数随机重置为/>重复步骤S4-S6学习不同稀疏程度的子网络；

步骤S8：结束训练循环；

步骤S9：返回三个任务生成的子网络集

其中涉及的参数包括：基础网络ε；每次迭代的剪枝率α；最小参数稀疏度S；3个任务的数据集D₁，D₂，D₃，其中

进一步地，通过迭代多次剪枝的方式为每个任务都生成z个子网络，每个子网络稀疏程度不同；接着采用启发式方式从中挑选一个子网络作为最后任务联合训练过程中使用的子网络，即挑选在验证集上表现最好的子网络。

得到三个论辩挖掘任务各自任务特定的子网络后，接着将它们运用到完整模型训练过程中；由于系统的三个论辩挖掘子任务使用的数据集是同一个，因此当数据流经过编码层网络到达共享模块时，使用三个任务各自的子网络掩码对共享网络屏蔽，再将数据重复三次输入到三个子网络中，之后使用各自任务的分类器进行任务预测。

以及，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的基于多任务稀疏共享学习的论辩挖掘方法的步骤。

以及，一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述的基于多任务稀疏共享学习的论辩挖掘方法的步骤。

与现有技术相比，本发明及其优选方案能够自动地学习多个任务的稀疏共享结构，并利用各自任务特定的子网络进行联合训练，有效避免多任务学习的负迁移现象。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，根据本发明实施提供的包括基于多任务稀疏共享学习的论辩挖掘系统及方法的方案包括：

编码器模块1，文本词嵌入使用双向长短时记忆神经网络学习上下文信息。

双路注意力模块2，使用自注意力和外部注意力并行对词向量进行特征提取，获得不同角度的单词语义关注度，强化单词之间的关系建模。

稀疏共享学习模块3，对获得句子向量的编码模块进行多任务学习，为不同任务生成任务特定的稀疏参数矩阵，有效解决多任务学习负迁移影响。

多任务标签输出模块4，使用任务特定的分类器完成不同任务的分类结果预测。

1)编码器模块1

首先，描述编码器模块1如何对历史上下文信息进行编码。

本实施例中的编码器模块，首先根据数据集构造的词典从glove静态预训练词向量文档中获得词嵌入矩阵。输入文本的单词经过词嵌入矩阵获得单词的词向量，之后利用双向LSTM对历史上下文进行编码。编码器公式如下：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_4-1+b^o)

u_t＝tanh(W⁽ⁿ⁾x_t+I⁽ⁿ⁾h_t-1+bⁿ)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

编码器在训练过程中需要引入一个对抗训练的方式，具体方法是在每一步计算完梯度后，在编码层参数上根据梯度的下降的反方向加噪声后再训练一步，使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失，以此来鼓励共享编码器提取共享特征。

2)双路注意力模块2

本实施例中引入了一个双路注意力模块，该模块融合了两种不同角度的注意力机制，分别为多头自注意力机制和引入标题信息的外部注意力机制。

自注意力机制为每个输入词向量产生一个向量，该向量在其邻近向量上加权求和，其中权重由单词之间的关系或连通性决定。多头自注意机制能够从不同角度获得单词上下文关注信息，可以捕获长距离依赖关系，其公式如下：

MultiHead(Q，K，V)＝Concat(head₁，......，head_n)

其中Q、K、V表示向量矩阵，分别是query，key，value的简写，对于自注意力机制，Q、K、V都是来自于同一个待编码的输入向量。注意力具体计算公式如下：

其中Z是归一化因子，通过q_t这个query与各个k_s内积，使用softmax来得到qt与各个vs的相似度，然后加权求和，得到最终的词向量表示h_t。其中因子起到调节作用，使得内积不至于太大。

上面实现单词之间的注意力，对于不同的标题，每个单词在句子中作用程度不同，所以引入标题信息的外部注意力机制，先将标题的词向量经过双向LSTM进行编码。

h_i＝BiLSTM(s_i，h_t-1)

其中输入s_i为文章标题句子中第i个单词词向量，每个单词经过BiLSTM编码后都会生成一个向量，选择句子最后一个单词的词向量作为整个句子的表示u_t＝h_n，n为标题长度。将标题句子向量与编码层隐藏层输出的文档词向量进行相似度计算，最后获得引入标题信息的注意力加权向量。计算公式如下：

u_i＝tanh(W_sx_i+b_s)

s_i＝a_i·x_i

其中x代表输入句子的第i个单词，将输入词向量先经过全连接层和非线性函数tanh得到单词的隐藏层向量u_i，接着分别将每个单词的词向量u_i和标题句子向量u_t点乘，经过softmax归一化后得到代表单词重要程度的权重a_i，权重与输入单词向量相乘得到加权后的输入词向量。

最终，将两路注意力结果拼接输入CNN层进行特征提取，将提取后的特征向量再经过Highway高速网络的转换门来过滤有价值的特征。它的具体体现如下：

3)稀疏共享学习模块3

下面描述稀疏共享学习模块3是如何进行多任务稀疏共享学习。

首先稀疏共享模块的基础网络是由两个并行的lstm-minus对输入句子向量进行编码获得片段表示，之后经过一个融合层获得句子的表示向量。lstm-minus通过向量信息差异来计算片段表示，其计算公式如下：

h_1：T＝BiLSTM(x_1：T)

其中，x_1：T表示输入句子长度为T的单词词向量，经过双向LSTM编码获得隐藏层表示。为了获得子句向量表示，如子句开始位置为第i个单词，结束位置为第j个单词，通过将开始和结束位置的隐藏层向量进行相减，获得差异信息。因为编码层使用了双向LSTM，所以对两个方向的隐藏层信息进行差减计算和/>并且将子句前一个单词的隐藏向量作为子句的上文信息，同时也是考虑两个方向/>最终的子句表示由上述4个向量的拼接构成。

系统在上述模块的具体数据处理流程是输入文本向量经过双路注意力层编码后的输出将作为上述网络的输入。输入是句子的单词向量，会先经过两个并行的lstm-minus分别获得句子论辩标识的片段表示、论辩部件片段表示，之后将两个片段表示喂入双向LSTM进行融合，获得句子表示。通过对论辩标识和论点部件的分开处理，有助于模型发现论辩流，能够挖掘出更深的关系。

上述网络模型作为三个论辩挖掘子任务的共享模块进行联合训练，其中多任务学习方式采用的是稀疏共享的方式。接下来描述如何进行多任务稀疏共享学习。

传统的多任务学习采用硬共享方式，多个任务共同更新同一个网络，来共享信息。但多任务学习并不总能带来收益，对于任务相关性较小的任务之间，可能损害任务学习，也就发生负迁移现象。所以本系统采用稀疏共享方式，基于同一个基础网络为每个任务生成任务特定的子网络。其理论基础来自于ICLR’2019最佳论文奖的彩票假设，即一个随机初始化的密集神经网络包含一个子网络，该子网络初始化后，在隔离训练时，经过最多相同次数的迭代训练后，可以与原始网络的测试精度相匹配，这样的子网络称为原始网络的彩票。

假设基础网络参数为则任务t对应的子网络可以表示为/>其中M_t表示mask矩阵。在正式训练之前，每个任务独立对基础网络进行迭代剪枝，获得任务特定的mask矩阵。具体剪枝方式采用迭代数量级剪枝方法，其步骤的伪代码如下：

上面的算法通过迭代多次剪枝的方式为每个任务都生成了z个子网络，每个子网络稀疏程度不同。接下来采用启发式方式从中挑选一个子网络作为最后任务联合训练过程中使用的子网络，即挑选在验证集上表现最好的子网络。

得到3个论辩挖掘任务各自任务特定的子网络后，接着就可以将他们运用到完整模型训练过程中。由于系统的三个论辩挖掘子任务使用的数据集是同一个，所以当数据流经过前面的编码层网络到达共享模块时，接下来使用三个任务各自的子网络掩码对共享网络屏蔽，再将数据重复三次输入到三个子网络中，之后使用各自任务的分类器进行任务预测。

稀疏共享学习过程中，虽然每个任务只训练到了各自任务特定的子网络，但这些子网络可能存在重叠的参数，任务越相关，其共有参数越多。这样相关的任务能够更新部分相同的参数，获得多任务信息共享的增益，而不相关任务则学习不同的参数，互不影响。使共享网络享受多任务收益的同时，又能避免负迁移。

4)多任务输出预测模块4

下面描述多任务输出预测模块4是如何进行多任务预测。

输出任务有三个，分别为论点部件类型分类，属于三分类任务，论辩关系预测，属于2分类任务，论辩关系类型预测，属于2分类任务。对于论点部件类型分类和论辩关系类型预测属于标准的多分类预测，其分类器公式如下：

y_i＝softmax(h_iW_t+h_t)

将句子向量输入到线性层后使用softmax得到标签的预测值。

而关系识别任务难度更大，需要判断每个句子对之间可能的关系。所以先用一层BiLSTM对句子向量进行任务特定的编码，获得句子间的上下文信息，之后使用两个参数不同的多层感知机构造一个TxT的关系矩阵，其中T表示文档中句子个数，最后使用最小生成树算法得到最终的关系对预测值。

本实施例提供的以上方法可以代码化的形式存储在计算机可读取存储介质中，并以计算机程序的方式进行实现，并通过计算机硬件输入计算所需的基本参数信息，并输出计算结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于多任务稀疏共享学习的论辩挖掘系统及方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于多任务稀疏共享学习的论辩挖掘系统，其特征在于，包括：

多任务标签输出模块，用于使用任务特定的分类器完成不同任务的分类结果预测；

所述编码器模块根据数据集构造的词典从glove静态预训练词向量文档中获得词嵌入矩阵；输入文本的单词经过词嵌入矩阵获得单词的词向量，之后利用双向LSTM对历史上下文进行编码；编码器公式如下：

i_t＝σ(W⁽ⁱ⁾x_t+I⁽ⁱ⁾h_t-1+bⁱ)

f_t＝σ(W^(f)x_t+I^(f)h_t-1+b^f)

o_t＝σ(W^(o)x_t+I^(o)h_4-1+b^o)

u_t＝tanh(W⁽ⁿ⁾x_t+I⁽ⁿ⁾h_t-1+bⁿ)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中x_t为t时刻输入的句子上第t个单词词向量，σ表示sigmoid激活函数，W和I表示权重矩阵，b表示偏差向量，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，在每个时间步都会输出隐藏层状态h_t，其中遗忘门f_t，记忆门i_t与输出门o_t由上个时刻的隐藏层状态h_t-1和当前输入x_t计算出来，最后将前向和后向LSTM的隐藏层单元和/>连接为/>作为输出，以获得两个单词上下文信息；

所述双路注意力编码模块融合两种不同角度的注意力机制，分别为多头自注意力机制和引入标题信息的外部注意力机制；

MultiHead(Q,K,V)＝Concat(head₁,……,head_n)

其中Q、K、V表示向量矩阵，分别是query,key,value的简写，对于自注意力机制，Q、K、V都是来自于同一个待编码的输入向量；其中，注意力具体计算公式如下：

其中Z是归一化因子，通过q_t这个query与各个k_s内积，使用softmax得到q_t与各个v_s的相似度，然后加权求和，得到最终的词向量表示h_t；其中因子起调节作用，用于使内积不至于太大；

h_i＝BiLSTM(s_i,h_t-1)

其中输入s_i为文章标题句子中第i个单词词向量，每个单词经过BiLSTM编码后都会生成一个向量，选择句子最后一个单词的词向量作为整个句子的表示u_t＝h_n,n为标题长度；将标题句子向量与编码层隐藏层输出的文档词向量进行相似度计算，最后获得引入标题信息的注意力加权向量，计算公式如下：

u_i＝tanh(W_sx_i+b_s)

s_i＝a_i·x_i

其中，g表示非线性函数，t＝σ(W_Ty+b_T)称为转换门，(1-t)称为进位门；

所述稀疏共享学习模块的基础网络由两个并行的lstm-minus对输入句子向量进行编码获得片段表示，之后经过一个融合层获得句子的表示向量；

lstm-minus通过向量信息差异计算片段表示，其计算公式如下：

h_1:T＝BiLSTM(x_1:T)

其中，x_1:T表示输入句子长度为T的单词词向量，经过双向LSTM编码获得隐藏层表示；通过将开始和结束位置的隐藏层向量进行相减，获得差异信息，以及对两个方向的隐藏层信息进行差减计算，包括和/>并且将子句前一个单词的隐藏向量作为子句的上文信息，以及考虑两个方向/>最终的子句表示由上述4个向量的拼接构成；

在所述多任务标签输出模块中，对于论点部件类型分类和论辩关系类型预测采用的分类器公式如下：

y_i＝softmax(h_iW_t+h_t)

将句子向量输入到线性层后使用softmax得到标签的预测值；

2.一种基于多任务稀疏共享学习的论辩挖掘方法，采用了权利要求1所述的基于多任务稀疏共享学习的论辩挖掘系统，其特征在于：

在编码器在训练过程中引入对抗训练的方式，具体方法是在每一步计算完梯度后，在编码层参数上根据梯度的下降的反方向加噪声后再训练一步，用于使得模型一方面最小化领域分类的误差，另一方面更新分类器底层网络最大化域分类损失，以此来鼓励共享编码器提取共享特征。

3.根据权利要求2所述的基于多任务稀疏共享学习的论辩挖掘方法，其特征在于：

输入文本向量经过双路注意力层编码后的输出将作为稀疏共享学习模块的网络的输入；输入是句子的单词向量，先经过两个并行的lstm-minus分别获得句子论辩标识的片段表示和论辩部件片段表示，之后将两个片段表示输入双向LSTM进行融合，获得句子表示。

4.根据权利要求3所述的基于多任务稀疏共享学习的论辩挖掘方法，其特征在于：

将所述稀疏共享学习模块提供的网络模型作为三个论辩挖掘子任务的共享模块进行联合训练，其中多任务学习方式采用的是稀疏共享的方式；

所述多任务稀疏共享学习包括以下过程：

假设基础网络参数为θ_ε，则任务t对应的子网络表示为M_t⊙θ_ε，其中M_t表示mask矩阵；在正式训练之前，每个任务独立对基础网络进行迭代剪枝，获得任务特定的mask矩阵；具体剪枝方式采用迭代数量级剪枝方法。

5.根据权利要求4所述的基于多任务稀疏共享学习的论辩挖掘方法，其特征在于：

所述迭代数量级剪枝方法具体包括以下步骤：

步骤S1：将基础网络参数θ_ε随机初始化为

步骤S2：通过剪枝技术为任务t＝1,2,3训练子网络；

步骤S3：初始化t任务的mask矩阵其中z＝1；

步骤S4：使用任务t的数据训练k步，得到训练后的参数使z←z+1；

步骤S5：选择百分之α个绝对值最小的剩余参数进行剪枝，即如果需要被剪枝,让剪枝后得到子网络之一/>

步骤S6：如果任务t生成的子网络集为/>

步骤S7：否则，将参数θ_ε随机重置为重复步骤S4-S6学习不同稀疏程度的子网络；

步骤S8：结束训练循环；

步骤S9：返回三个任务生成的子网络集

其中涉及的参数包括：基础网络ε；每次迭代的剪枝率α；最小参数稀疏度S；3个任务的数据集D₁,D₂,D₃,其中

6.根据权利要求5所述的基于多任务稀疏共享学习的论辩挖掘方法，其特征在于：

通过迭代多次剪枝的方式为每个任务都生成z个子网络，每个子网络稀疏程度不同；接着采用启发式方式从中挑选一个子网络作为最后任务联合训练过程中使用的子网络，即挑选在验证集上表现最好的子网络；