CN113590821A

CN113590821A - 一种隐含语篇关系的分类方法

Info

Publication number: CN113590821A
Application number: CN202110843643.2A
Authority: CN
Inventors: 刘杰; 马宇昊; 周建设; 张凯; 张磊
Original assignee: Capital Normal University
Current assignee: North China University of Technology
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-02
Anticipated expiration: 2041-07-26
Also published as: CN113590821B

Abstract

本发明涉及一种隐含语篇关系的分类方法，包括：针对待分类的第一语篇信息和第二语篇信息，基于隐式语篇关系分类模型，获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构；针对所述语义交互图结构，获取与第一语篇信息和第二语篇信息对应的语义特征；将获取的语义特征借助于指数映射投影到双曲空间中，获取所述第一语篇信息和第二语篇信息的分类结果；其中，所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型；所述上下文表示层、语义学习层执行获取语义交互图结构的过程，所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程，所述预测层执行获取分类结果的过程。

Description

一种隐含语篇关系的分类方法

技术领域

本发明涉及隐含语篇关系分类技术领域，尤其涉及一种隐含语篇关系的分类方法。

背景技术

语篇关系分类旨在识别两个文本跨度之间的逻辑关系。它是语篇解析的一项基本任务，对许多自然语言处理任务都是有益的，例如机器翻译、问答系统和文本生成。根据语篇实例中是否包含连接词，语篇关系分类任务分为两种：句子中包含连接词的显式语篇关系分类和句中不含连接词的隐含语篇关系分类。仅使用连接词作为特征，显式语篇关系分类任务的准确率超过93％。对于隐含语篇关系分类来说，由于缺少连接词，识别隐性关系往往依赖于两个句子的相关语义信息，该任务仍然具有挑战性。

为了解决这个问题，研究人员对隐含语篇关系分类做了大量的研究。但是现有的方法难以处理不规则语法和隐藏特征、忽略了更广泛的句子线索，例如，句法结构和上下文信息等，没有充分利用注释过的语篇关系信息。同时，现有的方法通常会遇到数据稀疏性问题，从而使其效率低下。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种隐含语篇关系的分类方法，其解决了现有的方法没有考虑句法结构和上下文信息导致语篇关系分类结果不准确的技术问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

本发明实施例提供一种隐含语篇关系的分类方法，包括：

S1、针对待分类的第一语篇信息和第二语篇信息，基于隐式语篇关系分类模型，获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构；

所述语义交互图结构中的句内边表示句法依赖关系，交互边表示第一语篇信息的节点和第二语篇信息的节点在当前句子对中具有的语义关联关系，节点为语篇信息的单词；

S2、针对所述语义交互图结构，获取与第一语篇信息和第二语篇信息对应的语义特征；

S3、将获取的语义特征借助于指数映射投影到双曲空间中，获取所述第一语篇信息和第二语篇信息的分类结果；

其中，所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型；

所述上下文表示层、语义学习层执行获取语义交互图结构的过程，所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程，所述预测层执行获取分类结果的过程。

优选的，S1具体包括：

所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组；

其中，所述第一语篇信息表示向量组包括分别与所述第一语篇信息中的单词一一对应的具有上下文特征的编码向量；所述第二语篇信息表示向量组包括分别与所述第二语篇信息中的单词一一对应的具有上下文特征的编码向量；

所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组，采用预先设定的构图策略构建语义交互图结构。

优选的，所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组，具体包括：

所述隐式语篇关系分类模型的上下文表示层采用预先设定的BERT模型分别对第一语篇信息和第二语篇信息进行处理，获取与第一语篇信息对应的第一单元组arg₁和与第二语篇信息对应的第二单元组arg₂；

其中，所述第一单元组arg₁为：

所述第二单元组arg₂为：

M是arg₁的长度；且M为预先设定的；

N是arg₂的长度；且N为预先设定的；

是Arg_i中第k^th个单词的token；

CLS和EOS分别是BERT模型中的嵌入的token；

将所述第一单元组arg₁和所述第二单元组arg₂进行拼接，获取第三单元组；

所述第三单元组为：

SEP是标明语篇单元连接边界的嵌入标记；

所述BERT模型中的编码器对所述第三单元组进行处理，获取与第一语篇信息和第二语篇信息对应的向量组；

所述与第一语篇信息和第二语篇信息对应的向量组为：

[h₀，h₁，...，h_M+N+2，h_M+N+3]；

h_n表示第三单元组中第n个token或嵌入标记所对应的具有上下文特征的编码向量；

基于第一语篇信息和第二语篇信息对应的向量组，获取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组；

其中，所述第一语篇信息表示向量组为：[h₀，h₁，...，h_M+1]；

所述第二语篇信息表示向量组为：[h_M+2，h_M+3，...，h_M+N+3]。

优选的，所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组，采用预先设定的构图策略构建语义交互图结构，具体包括：

所述隐式语篇关系分类模型的语义学习层采用Standford CoreNLP解析器分别针对第一语篇信息表示向量组和第二语篇信息表示向量组进行句法分析，分别获取所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息；

所述第一语篇信息的依存结构信息包括：第一语篇信息中单词的词性信息以及各单词之间的句法依赖关系；

所述第二语篇信息的依存结构信息包括：第二语篇信息中单词的词性信息以及各单词之间的句法依赖关系；

分别基于所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息，分别获取第一语篇信息的句法关系图和第二语篇信息的句法关系图；

每一句法关系图中以相应语篇单元中的单词和词性作为节点，以相应语篇单元中单词和单词之间的句法依赖关系作为图中的节点之间的句内边；

基于第一语篇信息的句法关系图和第二语篇信息的句法关系图，构造语义交互图结构；

所述语义交互图结构包括第一语篇信息的句法关系图和第二语篇信息的句法关系图以及交互边；

所述交互边为在所述第一语篇信息中的任一单词和第二语篇信息中的任一单词之间满足预设条件的单词之间的边；

所述预设条件为：表示单词之间语义关联关系的共现频率低于预先设定值；

所述单词之间的共现频率为B(arg_1i，arg_2j)；

其中，

B(arg_1i，arg_2j)是单词对(arg_1i，arg_2j)的共现频率；

其中，arg_1i为arg₁中的第i个token所对应的单词；

arg_2i为arg₂中的第j个token所对应的单词；

p(arg_1i，arg_2j)是arg_1i和arg_2j在预先设定的PDTB2.0语料库中统计的一起出现的频率；

p(arg_1i)是arg_1i在预先设定的PDTB2.0语料库中单独出现的频率；

p(arg_2j)是arg_2j在预先设定的PDTB2.0语料库中单独出现的频率。

优选的，S2具体包括：

所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征，获取所述语义交互图结构中每一节点的句法特征向量；

其中，在图注意力网络GAT的网络相邻层特征传播的过程中，通过计算领域节点的注意力权重，来获取语义交互图结构中节点的隐藏状态；所述语义交互图结构中的节点与所述第一语篇信息和第二语篇信息中的单词一一对应；

所述图注意力网络GAT的层数为2；

所述隐式语篇关系分类模型的卷积层基于所述语义交互图结构中每一节点的句法特征向量，采用动态卷积网络分别对与第一语篇信息中单词对应的节点的句法特征向量和对与第二语篇信息中单词对应的节点的句法特征向量进行处理获取与第一语篇信息对应的第一动态卷积输出特征和与第二语篇信息对应的第二动态卷积输出特征；

所述隐式语篇关系分类模型的聚合层基于第一动态卷积输出特征和第二动态卷积输出特征，分别采用max-pooling和attention-pooling进行处理分别获取第一动态卷积输出特征和第二动态卷积输出特征的最大池向量和注意力池向量，并聚合所述第一动态卷积输出特征的最大池向量和注意力池向量、第二动态卷积输出特征的最大池向量和注意力池向量，获取具有固定长度的特征向量V，并将所述特征向量V作为与第一语篇信息和第二语篇信息对应的语义特征。

优选的，所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征，获取所述语义交互图结构中每一节点的句法特征向量，具体包括：

基于第一语篇信息表示向量组和第二语篇信息表示向量组获取与第一语篇信息和第二语篇信息对应的向量组，并将所述与第一语篇信息和第二语篇信息对应的向量组作为初始特征矩阵，输入所述隐式语篇关系分类模型的语义学习层中图注意力网络GAT的第一层；

基于所述初始特征矩阵，所述图注意力网络GAT的第一层通过计算邻域节点的注意力权重，来获取语义交互图结构中节点的隐藏状态，并将所述隐藏状态输入图注意力网络GAT的第二层；

基于所述隐藏状态，所述图注意力网络GAT的第二层通过计算领域节点的注意力权重，获取所述图注意力网络GAT的输出特征；

所述图注意力网络GAT的输出特征包括所述语义交互图结构中每一节点的句法特征向量。

优选的，基于初始特征矩阵，所述图注意力网络GAT的第一层通过计算相邻节点的注意力权重，来获取语义交互图结构中节点的隐藏状态，并将所述隐藏状态输入图注意力网络GAT的第二层，具体包括：

基于初始特征矩阵采用公式(1)获取语义交互图结构中节点j的特征对节点i的重要性z_0ij；

a是在语义交互图结构中节点上执行自注意力的共享注意力机制；

W是用于注意力机制的参数化权重矩阵；

为节点i在初始特征矩阵中所对应的编码向量；

为节点j在初始特征矩阵中所对应的编码向量；

基于语义交互图结构中节点j的特征对节点i的重要性z_0ij，采用公式(2)获取语义交互图结构中节点i对节点j的注意力权重；

a_0ij＝softmax_j(z_0ij) (2)；

a_0ij表示节点i对节点j的注意力权重；

softmax_j表示激活函数；

基于语义交互图结构中节点j的特征对节点i的注意力权重，采用公式(3)获取语义交互图结构中节点的隐藏状态；

为语义交互图结构中节点i的隐藏状态；

tanh为激活函数；

N_i为节点i的邻域；

其中，

relu为控制信息流的激活函数；

w^e是预先设定的可训练矩阵；

LeakyRule为在语义交互图结构中的节点之间的边上执行自注意力的共享注意力机制；

e_r(i，j)是节点i和节点j之间具有预定义大小的关系向量；

所述基于所述隐藏状态，所述图注意力网络GAT的第二层通过计算相邻节点的注意力权重，获取所述图注意力网络GAT的输出特征，具体包括：

基于隐藏状态采用公式(4)获取图注意力网络GAT的第二层提取的语义交互图结构中节点j的特征对节点i的重要性z_1ij；

为语义交互图结构中节点j的隐藏状态；

基于语义交互图结构中节点j的特征对节点i的重要性z_1ij，采用公式(5)获取图注意力网络GAT的第二层提取语义交互图结构中节点j的特征对节点i的注意力权重；

基于语义交互图结构中节点j的特征对节点i的注意力权重，采用公式(6)获取所述图注意力网络GAT的输出特征；

其中，

所述图注意力网络GAT的输出的语义交互图结构中节点i的的句法特征向量。

优选的，

所述第一动态卷积输出特征为

其中，所述第二动态卷积输出特征为

其中，Conv_c卷积网络的卷积核为c；c为预先设定值；

所述第一动态卷积输出特征的最大池向量为

所述第二动态卷积输出特征的最大池向量为

所述第一动态卷积输出特征的注意力池向量为

所述exp为指数计算函数；

所述第二动态卷积输出特征的注意力池向量为

W₁，W₂是预先设定的可训练矩阵参数；

其中，

优选的，S3具体包括：

所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P，并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类，获取分类结果。

优选的，

所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P，并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类，获取分类结果，具体包括：

所述隐式语篇关系分类模型的预测层采用指数映射函数将所述特征向量V投影到双曲空间，获取所述特征向量V在双曲空间中的对应值P；

其中指数映射函数为：

基于所述特征向量V在双曲空间中的对应值P，所述隐式语篇关系分类模型的预测层采用双曲空间中广义的多元逻辑回归MLR，进行分类处理，获取分类结果；

其中，所述分类结果为与对应值P对应的预先设定的语篇关系标签。

(三)有益效果

本发明的有益效果是：本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型中的上下文表示层采用BERT模型对句子进行编码，在单词级别学习相关语义。同时，本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型语义学习层将句子分别构建为句法依赖图，然后将两个句法图合并为一个语义图结构。以使其参与图学习的过程与独立学习句法结构的策略相比，可以同时学习句法依赖和语义交互。

本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型中的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征的过程中引入了门控注意力机制对各种依赖关系和语义交互进行编码，使得隐式语篇关系分类模型具有更好的泛化能力。

本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型中的预测层将提取第一语篇信息和第二语篇信息的语义特征通过指数映射投影到双曲线空间中，进行语篇关系分类，提高了预测语篇关系分类的准确性。

附图说明

图1为本发明提供一种隐含语篇关系的分类方法流程图；

图2为本发明中的隐式语篇关系分类模型结构示意图；

图3为本发明实施例中的语义交互图结构；

图4为本发明实施例中语篇关系的分类结果在庞加莱球上可视化图；

图5为采用本发明方法进行实验时超参数和精确度的关系示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参见图1，本实施例提供一种隐含语篇关系的分类方法，包括：

S1、针对待分类的第一语篇信息和第二语篇信息，基于隐式语篇关系分类模型，获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构。

所述语义交互图结构中的句内边表示句法依赖关系，交互边表示第一语篇信息的节点和第二语篇信息的节点在当前句子对中具有的语义关联关系，节点为语篇信息的单词。

S2、针对所述语义交互图结构，获取与第一语篇信息和第二语篇信息对应的语义特征。

S3、将获取的语义特征借助于指数映射投影到双曲空间中，获取所述第一语篇信息和第二语篇信息的分类结果。

在本实施例的实际应用中，参见图2，所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型；所述上下文表示层、语义学习层执行获取语义交互图结构的过程，所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程，所述预测层执行获取分类结果的过程。

在本实施例的实际应用中，S1具体包括：

所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组。

其中，所述第一语篇信息表示向量组包括分别与所述第一语篇信息中的单词一一对应的具有上下文特征的编码向量；所述第二语篇信息表示向量组包括分别与所述第二语篇信息中的单词一一对应的具有上下文特征的编码向量。

本实施例中由于在上下文表示层，由于提取语篇信息中具有上下文特征的编码向量，增强了语篇信息中的表示能力。

在本实施例的实际应用中，所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组，具体包括：

所述隐式语篇关系分类模型的上下文表示层采用预先设定的BERT模型分别对第一语篇信息和第二语篇信息进行处理，获取与第一语篇信息对应的第一单元组arg₁和与第二语篇信息对应的第二单元组arg₂。

其中，所述第一单元组arg₁为：

所述第二单元组arg₂为：

M是arg₁的长度；且M为预先设定的；N是arg₂的长度；且N为预先设定的；

是Arg_i中第k^th个单词的token；CLS和EOS分别是BERT模型中的嵌入的token。

将所述第一单元组arg₁和所述第二单元组arg₂进行拼接，获取第三单元组；所述第三单元组为：

SEP是标明语篇单元连接边界的嵌入标记。

所述BERT模型中的编码器对所述第三单元组进行处理，获取与第一语篇信息和第二语篇信息对应的向量组。

所述与第一语篇信息和第二语篇信息对应的向量组为：

[h₀，h₁，...，h_M+N+2，h_M+N+3]；h_n表示第三单元组中第n个token或嵌入标记所对应的具有上下文特征的编码向量。

基于第一语篇信息和第二语篇信息对应的向量组，获取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组；其中，所述第一语篇信息表示向量组为：[h₀，h₁，...，h_M+1]；所述第二语篇信息表示向量组为：[h_M+2，h_M+3，...，h_M+N+3]。

在本实施例的实际应用中，所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组，采用预先设定的构图策略构建语义交互图结构，具体包括：

所述隐式语篇关系分类模型的语义学习层采用Standford CoreNLP解析器分别针对第一语篇信息表示向量组和第二语篇信息表示向量组进行句法分析，分别获取所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息。

所述第一语篇信息的依存结构信息包括：第一语篇信息中单词的词性信息以及各单词之间的句法依赖关系；所述第二语篇信息的依存结构信息包括：第二语篇信息中单词的词性信息以及各单词之间的句法依赖关系。

分别基于所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息，分别获取第一语篇信息的句法关系图和第二语篇信息的句法关系图。

每一句法关系图中以相应语篇单元中的单词和词性作为节点，以相应语篇单元中单词和单词之间的句法依赖关系作为图中的节点之间的句内边。

基于第一语篇信息的句法关系图和第二语篇信息的句法关系图，构造语义交互图结构。

参见图3，本实施例中所述语义交互图结构包括第一语篇信息的句法关系图和第二语篇信息的句法关系图以及交互边。

所述交互边为在所述第一语篇信息中的任一单词和第二语篇信息中的任一单词之间满足预设条件的单词之间的边；所述预设条件为：表示单词之间语义关联关系的共现频率低于预先设定值。

所述单词之间的共现频率为B(arg_1i，arg_2j)。

其中，

B(arg_1i，arg_2j)是单词对(arg_1i，arg_2j)的共现频率；其中，arg_1i为arg₁中的第i个token所对应的单词；arg_2i为arg₂中的第j个token所对应的单词；p(arg_1i，arg_2j)是arg_1i和arg_2j在预先设定的PDTB2.0语料库中统计的一起出现的频率；p(arg_1i)是arg_1i在预先设定的PDTB2.0语料库中单独出现的频率；p(arg_2j)是arg_2j在预先设定的PDTB2.0语料库中单独出现的频率。

本实施例具体构造语义交互图结构过程中，不同句法关系图中节点之间的共现频率表示每对单词的语义关联程度，共现频率越大，语义关联度越强，反之亦然。如果关联度超过预定义阈值，则表示两个节点在当前句子对中具有语义关系。低于预定义阈值，则表示节点间语义关联程度较弱，对应的关系边被淘汰。本实施例中使滑动窗口策略，计算每对单词的共现频率。

本实施例中的语义交互图结构由于具有句内边和交互边，因此图神经网络可以同时学习句法依赖性和不同句法关系图中节点之间的语义交互特征。

在本实施例的实际应用中，S2具体包括：所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征，获取所述语义交互图结构中每一节点的句法特征向量。

其中，在图注意力网络GAT的网络相邻层特征传播的过程中，通过计算领域节点的注意力权重，来获取语义交互图结构中节点的隐藏状态；所述语义交互图结构中的节点与所述第一语篇信息和第二语篇信息中的单词一一对应；所述图注意力网络GAT的层数为2。

所述隐式语篇关系分类模型的卷积层基于所述语义交互图结构中每一节点的句法特征向量，采用动态卷积网络分别对与第一语篇信息中单词对应的节点的句法特征向量和对与第二语篇信息中单词对应的节点的句法特征向量进行处理获取与第一语篇信息对应的第一动态卷积输出特征和与第二语篇信息对应的第二动态卷积输出特征。

本实施例中采用动态卷积网络来捕获两个语篇信息的特征，并使用具有不同过滤器大小的卷积运算自动学习不同范围的n-gram信息。

本实施例中，max-pooling认为最大特征更具代表性，它选择最大特征作为从特定维度提取的特征的保留值，所有其他特征均被丢弃。Attention-pooling可以减少冗余信息，防止丢失关键信息，诸如句子结构等。

在本实施例的实际应用中，所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征，获取所述语义交互图结构中每一节点的句法特征向量，具体包括：

基于第一语篇信息表示向量组和第二语篇信息表示向量组获取与第一语篇信息和第二语篇信息对应的向量组，并将所述与第一语篇信息和第二语篇信息对应的向量组作为初始特征矩阵，输入所述隐式语篇关系分类模型的语义学习层中图注意力网络GAT的第一层。

基于所述初始特征矩阵，所述图注意力网络GAT的第一层通过计算邻域节点的注意力权重，来获取语义交互图结构中节点的隐藏状态，并将所述隐藏状态输入图注意力网络GAT的第二层。

基于所述隐藏状态，所述图注意力网络GAT的第二层通过计算领域节点的注意力权重，获取所述图注意力网络GAT的输出特征。

在本实施例的实际应用中，基于初始特征矩阵，所述图注意力网络GAT的第一层通过计算相邻节点的注意力权重，来获取语义交互图结构中节点的隐藏状态，并将所述隐藏状态输入图注意力网络GAT的第二层，具体包括：

基于初始特征矩阵采用公式(1)获取语义交互图结构中节点j的特征对节点i的重要性z_0ij。

a是在语义交互图结构中节点上执行自注意力的共享注意力机制；本实施例中使用多头注意力机制。W是用于注意力机制的参数化权重矩阵；

为节点i在初始特征矩阵中所对应的编码向量；

为节点j在初始特征矩阵中所对应的编码向量。

a_0ij＝softmax_j(z_0ij) (2)；

a_0ij表示节点i对节点j的注意力权重；softmax_j表示激活函数。

基于语义交互图结构中节点j的特征对节点i的注意力权重，采用公式(3)获取语义交互图结构中节点的隐藏状态。

为语义交互图结构中节点i的隐藏状态tanh为激活函数；N_i为节点i的邻域。

其中，

relu为控制信息流的激活函数；w^e是预先设定的可训练矩阵。

LeakyRule为在语义交互图结构中的节点之间的边上执行自注意力的共享注意力机制。

e_r(i，j)是节点i和节点j之间具有预定义大小的关系向量。

基于隐藏状态采用公式(4)获取图注意力网络GAT的第二层提取的语义交互图结构中节点j的特征对节点i的重要性z_1ij。

为语义交互图结构中节点j的隐藏状态。

基于语义交互图结构中节点j的特征对节点i的重要性z_1ij，采用公式(5)获取图注意力网络GAT的第二层提取语义交互图结构中节点j的特征对节点i的注意力权重。

a_1ij＝softmax_j(z_1ij) (5)。

基于语义交互图结构中节点j的特征对节点i的注意力权重，采用公式(6)获取所述图注意力网络GAT的输出特征。

其中，

所述图注意力网络GAT的输出的语义交互图结构中节点i的的句法特征向量。在本实施例的实际应用中，所述第一动态卷积输出特征为

其中，所述第二动态卷积输出特征为

其中，Conv_c卷积网络的卷积核为c；c为预先设定值。

所述第一动态卷积输出特征的最大池向量为

所述第二动态卷积输出特征的最大池向量为

所述第一动态卷积输出特征的注意力池向量为

所述exp为指数计算函数。

所述第二动态卷积输出特征的注意力池向量为

W₁，W₂是预先设定的可训练矩阵参数。

其中，

在本实施例的实际应用中，S3具体包括：所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P，并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类，获取分类结果。

在本实施例的实际应用中，所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P，并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类，获取分类结果，具体包括：

其中指数映射函数为：

基于所述特征向量V在双曲空间中的对应值P，所述隐式语篇关系分类模型的预测层采用双曲空间中广义的多元逻辑回归MLR，进行分类处理，获取分类结果。

实验验证

本实施例中对隐含语篇关系分类任务采用本发明的一种隐含语篇关系的分类方法进行实验。首先介绍PDTB 2.0数据集，然后描述本文的实验设置，最后给出实验结果并进行详尽的分析。

PDTB 2.0是带有语篇关系的大型手动注释语料库。它注释了2312篇《华尔街日报》的文章。在PDTB 2.0数据集中，语篇关系存在三级结构，包括类，类型和子类型。大多数工作都集中在顶级，包括Contingency(偶然)，Comparison(比较)，Temporal(时间)andExpansion(发展)。第二级包括16种类型，其中5种类型的训练实例较少，并且没有验证集和测试集。所以，我们在四种顶级类和11种主要的二级类型上评估本文的隐式语篇关系分类模型。本实施例中选择2-20部分作为训练集，选择0-1部分作为验证集，并选择21-22部分作为测试集。表1显示了PDTB顶级语篇关系的数据统计。

表1：PDTB 2.0中四个顶级语篇关系的数据统计

实验设置，本实施例中使用BERT作为上下文表示层，以输出隐藏状态大小为768维的词嵌入，并在训练过程中对其进行微调。输入序列的最大长度设置为512，最小长度为3。对于图注意力网络GAT，我们将层数设置为2，注意头数设置为4，隐藏维度为128。对于动态卷积网络，我们采用3、4、5的滤波器，每个滤波器具有100个特征图，可以获取不同范围的n-gram特征，即多粒度语义信息。为了防止过度拟合，我们将dropout(遗弃率)应用到每一层，dropout rate为0.2。因为模型中存在欧几里德参数和双曲参数。我们分别对参数进行了梯度优化，欧几里得参数由Adam(参数优化函数)更新，双曲参数由黎曼自适应Adam更新，学习率皆为0.001。隐式语篇关系分类模型是由Pytorch实现的，所有的实验都在2块NVIDIA2080Ti GPU上执行。

本实施例中制定隐式语篇关系分类模型的评估指标，并直接与现有的模型进行比较。Macro-averaged F1值是四类分类的主要指标，准确率被认为是多分类问题的主要指标。对于二进制分类，采用F1值评估模型在每个类的性能。

表2

表2：根据宏观平均F1(％)和准确率(ACC.％)评估模型在PDTB上进行多分类的性能。

表2显示了多分类的结果。本文的隐式语篇关系分类模型在所有分类设置中都得到了实质性改进，不可否认，BERT对本文的方法有极大的改善。图神经网络沿关系边收集相邻节点信息时，图注意力网络GAT所捕获的句法结构和语义交互为关系识别提供了额外的信息。重要节点通过句法依赖被有效的连接起来，依赖关系不仅可以用来提取语法特征，还可以在训练过程中进行自我调整以适应关系识别的任务，这表明句内结构在关系分类中也起了关键作用。此外，为了收集细粒度的交互信息，我们使用共现词作为确定两个文本跨度之间关系的线索。此策略可能会受到数据稀疏性问题的影响，因为文本之间可能没有足够的共现词。在PDTB-11中，F1分数首次突破60％，原因是双曲空间有效匹配了多层次的语篇关系数据。

表3

表3总结了模型在PDTB 2.0中对顶级语篇关系进行二进制分类的实验结果。与现有的模型相比，本实施例中的隐式语篇关系分类模型表现更好。Temporal在语料库中具有最少数量的可训练实例，本实施例中的隐式语篇关系分类模型缺乏足够的训练数据来捕获潜在的语篇关系，因此得分较低。Comparison和Expansion分数较高，有以下三个原因：1)更多的可训练语篇实例。2)BERT通过自我注意力识别与语篇关系相关的单词，获取了准确的语义信息并提供了好的文本表示。3)语篇单元存在近似词对，图网络的多头注意力提供了有用的信息。

消融实验

我们从本实施例中的隐式语篇关系分类模型中逐一删除了关系边缘(RE)和双曲线空间(HBS)。

w/o RE，它使用普通的GAT，不考虑关系边。

w/o HBS，模型去掉双曲空间，使用欧几里德空间的多元逻辑回归进行预测，得到预测结果，参见表4。

表4

从表4中，我们可以看到两个模块都有助于提高本实施例中的隐式语篇关系分类模型的性能，这两个模块在训练过程中相互补充，并帮助我们的模型获得最佳性能。忽略关系边的权重，本实施例中的隐式语篇关系分类模型效率降低了2.68％，这表明关系边包含重要特征，并且图注意力网络通过关系边学习了额外的语义信息，结果与我们之前的想法相同。在二级11向分类中，使用普通softmax的工作不如使用双曲空间MLR，这证实了双曲空间更适合本任务，且性能优于一般欧几里德模型。多层次的语篇关系的分类结果可以在庞加莱球上可视化如图4，参见图5，低层级的语篇意义分布在庞加莱球边界附近，顶层语篇意义嵌入原点附近，这证明以测地距离为度量，双曲几何的层次组织能力可以还原语篇关系的层次结构。

噪声的影响，隐式语篇关系分类模型的超参数α_o-occurs确定了交互边的保留率。对于四向分类，从图5中可以看到，当α_o-occurs从0.1到0.4时，准确率得到了显着提高，这表明一定数量的交互边对任务很有帮助。但是，当α_o-occurs大于0.4时，准确率会波动，并且完全交互(α_o-occurs＝0)不能使隐式语篇关系分类模型模型达到最优，这意味着多余的交互边可能会产生噪声并引起隐式语篇关系分类模型过拟合。对于11向分类，当α_o-occurs等于0.3时，隐式语篇关系分类模型最优。

本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型中的上下文表示层采用BERT模型对句子进行编码，在单词级别学习相关语义。同时，本发明的一种隐含语篇关系的分类方法，由于在隐式语篇关系分类模型语义学习层将句子分别构建为句法依赖图，然后将两个句法图合并为一个语义图结构。以使其参与图学习的过程与独立学习句法结构的策略相比，可以同时学习句法依赖和句子交互。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。