CN113590821A - 一种隐含语篇关系的分类方法 - Google Patents

一种隐含语篇关系的分类方法 Download PDF

Info

Publication number
CN113590821A
CN113590821A CN202110843643.2A CN202110843643A CN113590821A CN 113590821 A CN113590821 A CN 113590821A CN 202110843643 A CN202110843643 A CN 202110843643A CN 113590821 A CN113590821 A CN 113590821A
Authority
CN
China
Prior art keywords
language
information
semantic
node
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110843643.2A
Other languages
English (en)
Other versions
CN113590821B (zh
Inventor
刘杰
马宇昊
周建设
张凯
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202110843643.2A priority Critical patent/CN113590821B/zh
Publication of CN113590821A publication Critical patent/CN113590821A/zh
Application granted granted Critical
Publication of CN113590821B publication Critical patent/CN113590821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种隐含语篇关系的分类方法,包括:针对待分类的第一语篇信息和第二语篇信息,基于隐式语篇关系分类模型,获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构;针对所述语义交互图结构,获取与第一语篇信息和第二语篇信息对应的语义特征;将获取的语义特征借助于指数映射投影到双曲空间中,获取所述第一语篇信息和第二语篇信息的分类结果;其中,所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型;所述上下文表示层、语义学习层执行获取语义交互图结构的过程,所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程,所述预测层执行获取分类结果的过程。

Description

一种隐含语篇关系的分类方法
技术领域
本发明涉及隐含语篇关系分类技术领域,尤其涉及一种隐含语篇关系的分类方法。
背景技术
语篇关系分类旨在识别两个文本跨度之间的逻辑关系。它是语篇解析的一项基本任务,对许多自然语言处理任务都是有益的,例如机器翻译、问答系统和文本生成。根据语篇实例中是否包含连接词,语篇关系分类任务分为两种:句子中包含连接词的显式语篇关系分类和句中不含连接词的隐含语篇关系分类。仅使用连接词作为特征,显式语篇关系分类任务的准确率超过93%。对于隐含语篇关系分类来说,由于缺少连接词,识别隐性关系往往依赖于两个句子的相关语义信息,该任务仍然具有挑战性。
为了解决这个问题,研究人员对隐含语篇关系分类做了大量的研究。但是现有的方法难以处理不规则语法和隐藏特征、忽略了更广泛的句子线索,例如,句法结构和上下文信息等,没有充分利用注释过的语篇关系信息。同时,现有的方法通常会遇到数据稀疏性问题,从而使其效率低下。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种隐含语篇关系的分类方法,其解决了现有的方法没有考虑句法结构和上下文信息导致语篇关系分类结果不准确的技术问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
本发明实施例提供一种隐含语篇关系的分类方法,包括:
S1、针对待分类的第一语篇信息和第二语篇信息,基于隐式语篇关系分类模型,获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构;
所述语义交互图结构中的句内边表示句法依赖关系,交互边表示第一语篇信息的节点和第二语篇信息的节点在当前句子对中具有的语义关联关系,节点为语篇信息的单词;
S2、针对所述语义交互图结构,获取与第一语篇信息和第二语篇信息对应的语义特征;
S3、将获取的语义特征借助于指数映射投影到双曲空间中,获取所述第一语篇信息和第二语篇信息的分类结果;
其中,所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型;
所述上下文表示层、语义学习层执行获取语义交互图结构的过程,所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程,所述预测层执行获取分类结果的过程。
优选的,S1具体包括:
所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组;
其中,所述第一语篇信息表示向量组包括分别与所述第一语篇信息中的单词一一对应的具有上下文特征的编码向量;所述第二语篇信息表示向量组包括分别与所述第二语篇信息中的单词一一对应的具有上下文特征的编码向量;
所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构。
优选的,所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组,具体包括:
所述隐式语篇关系分类模型的上下文表示层采用预先设定的BERT模型分别对第一语篇信息和第二语篇信息进行处理,获取与第一语篇信息对应的第一单元组arg1和与第二语篇信息对应的第二单元组arg2
其中,所述第一单元组arg1为:
Figure BDA0003179973800000031
所述第二单元组arg2为:
Figure BDA0003179973800000032
M是arg1的长度;且M为预先设定的;
N是arg2的长度;且N为预先设定的;
Figure BDA0003179973800000033
是Argi中第kth个单词的token;
CLS和EOS分别是BERT模型中的嵌入的token;
将所述第一单元组arg1和所述第二单元组arg2进行拼接,获取第三单元组;
所述第三单元组为:
Figure BDA0003179973800000034
SEP是标明语篇单元连接边界的嵌入标记;
所述BERT模型中的编码器对所述第三单元组进行处理,获取与第一语篇信息和第二语篇信息对应的向量组;
所述与第一语篇信息和第二语篇信息对应的向量组为:
[h0,h1,...,hM+N+2,hM+N+3];
hn表示第三单元组中第n个token或嵌入标记所对应的具有上下文特征的编码向量;
基于第一语篇信息和第二语篇信息对应的向量组,获取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组;
其中,所述第一语篇信息表示向量组为:[h0,h1,...,hM+1];
所述第二语篇信息表示向量组为:[hM+2,hM+3,...,hM+N+3]。
优选的,所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构,具体包括:
所述隐式语篇关系分类模型的语义学习层采用Standford CoreNLP解析器分别针对第一语篇信息表示向量组和第二语篇信息表示向量组进行句法分析,分别获取所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息;
所述第一语篇信息的依存结构信息包括:第一语篇信息中单词的词性信息以及各单词之间的句法依赖关系;
所述第二语篇信息的依存结构信息包括:第二语篇信息中单词的词性信息以及各单词之间的句法依赖关系;
分别基于所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息,分别获取第一语篇信息的句法关系图和第二语篇信息的句法关系图;
每一句法关系图中以相应语篇单元中的单词和词性作为节点,以相应语篇单元中单词和单词之间的句法依赖关系作为图中的节点之间的句内边;
基于第一语篇信息的句法关系图和第二语篇信息的句法关系图,构造语义交互图结构;
所述语义交互图结构包括第一语篇信息的句法关系图和第二语篇信息的句法关系图以及交互边;
所述交互边为在所述第一语篇信息中的任一单词和第二语篇信息中的任一单词之间满足预设条件的单词之间的边;
所述预设条件为:表示单词之间语义关联关系的共现频率低于预先设定值;
所述单词之间的共现频率为B(arg1i,arg2j);
其中,
Figure BDA0003179973800000051
B(arg1i,arg2j)是单词对(arg1i,arg2j)的共现频率;
其中,arg1i为arg1中的第i个token所对应的单词;
arg2i为arg2中的第j个token所对应的单词;
p(arg1i,arg2j)是arg1i和arg2j在预先设定的PDTB2.0语料库中统计的一起出现的频率;
p(arg1i)是arg1i在预先设定的PDTB2.0语料库中单独出现的频率;
p(arg2j)是arg2j在预先设定的PDTB2.0语料库中单独出现的频率。
优选的,S2具体包括:
所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量;
其中,在图注意力网络GAT的网络相邻层特征传播的过程中,通过计算领域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态;所述语义交互图结构中的节点与所述第一语篇信息和第二语篇信息中的单词一一对应;
所述图注意力网络GAT的层数为2;
所述隐式语篇关系分类模型的卷积层基于所述语义交互图结构中每一节点的句法特征向量,采用动态卷积网络分别对与第一语篇信息中单词对应的节点的句法特征向量和对与第二语篇信息中单词对应的节点的句法特征向量进行处理获取与第一语篇信息对应的第一动态卷积输出特征和与第二语篇信息对应的第二动态卷积输出特征;
所述隐式语篇关系分类模型的聚合层基于第一动态卷积输出特征和第二动态卷积输出特征,分别采用max-pooling和attention-pooling进行处理分别获取第一动态卷积输出特征和第二动态卷积输出特征的最大池向量和注意力池向量,并聚合所述第一动态卷积输出特征的最大池向量和注意力池向量、第二动态卷积输出特征的最大池向量和注意力池向量,获取具有固定长度的特征向量V,并将所述特征向量V作为与第一语篇信息和第二语篇信息对应的语义特征。
优选的,所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量,具体包括:
基于第一语篇信息表示向量组和第二语篇信息表示向量组获取与第一语篇信息和第二语篇信息对应的向量组,并将所述与第一语篇信息和第二语篇信息对应的向量组作为初始特征矩阵,输入所述隐式语篇关系分类模型的语义学习层中图注意力网络GAT的第一层;
基于所述初始特征矩阵,所述图注意力网络GAT的第一层通过计算邻域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层;
基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算领域节点的注意力权重,获取所述图注意力网络GAT的输出特征;
所述图注意力网络GAT的输出特征包括所述语义交互图结构中每一节点的句法特征向量。
优选的,基于初始特征矩阵,所述图注意力网络GAT的第一层通过计算相邻节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层,具体包括:
基于初始特征矩阵采用公式(1)获取语义交互图结构中节点j的特征对节点i的重要性z0ij
Figure BDA0003179973800000071
a是在语义交互图结构中节点上执行自注意力的共享注意力机制;
W是用于注意力机制的参数化权重矩阵;
Figure BDA0003179973800000072
为节点i在初始特征矩阵中所对应的编码向量;
Figure BDA0003179973800000073
为节点j在初始特征矩阵中所对应的编码向量;
基于语义交互图结构中节点j的特征对节点i的重要性z0ij,采用公式(2)获取语义交互图结构中节点i对节点j的注意力权重;
a0ij=softmaxj(z0ij) (2);
a0ij表示节点i对节点j的注意力权重;
softmaxj表示激活函数;
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(3)获取语义交互图结构中节点的隐藏状态;
Figure BDA0003179973800000074
Figure BDA0003179973800000075
为语义交互图结构中节点i的隐藏状态;
tanh为激活函数;
Ni为节点i的邻域;
其中,
Figure BDA0003179973800000081
relu为控制信息流的激活函数;
we是预先设定的可训练矩阵;
Figure BDA0003179973800000082
LeakyRule为在语义交互图结构中的节点之间的边上执行自注意力的共享注意力机制;
er(i,j)是节点i和节点j之间具有预定义大小的关系向量;
Figure BDA0003179973800000083
所述基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算相邻节点的注意力权重,获取所述图注意力网络GAT的输出特征,具体包括:
基于隐藏状态采用公式(4)获取图注意力网络GAT的第二层提取的语义交互图结构中节点j的特征对节点i的重要性z1ij
Figure BDA0003179973800000084
Figure BDA0003179973800000085
为语义交互图结构中节点j的隐藏状态;
基于语义交互图结构中节点j的特征对节点i的重要性z1ij,采用公式(5)获取图注意力网络GAT的第二层提取语义交互图结构中节点j的特征对节点i的注意力权重;
Figure BDA0003179973800000088
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(6)获取所述图注意力网络GAT的输出特征;
Figure BDA0003179973800000086
其中,
Figure BDA0003179973800000087
Figure BDA0003179973800000091
Figure BDA0003179973800000092
Figure BDA0003179973800000093
所述图注意力网络GAT的输出的语义交互图结构中节点i的的句法特征向量。
优选的,
所述第一动态卷积输出特征为
Figure BDA0003179973800000094
Figure BDA0003179973800000095
其中,所述第二动态卷积输出特征为
Figure BDA0003179973800000096
Figure BDA0003179973800000097
其中,Convc卷积网络的卷积核为c;c为预先设定值;
所述第一动态卷积输出特征的最大池向量为
Figure BDA0003179973800000098
Figure BDA0003179973800000099
所述第二动态卷积输出特征的最大池向量为
Figure BDA00031799738000000910
Figure BDA00031799738000000911
所述第一动态卷积输出特征的注意力池向量为
Figure BDA00031799738000000912
Figure BDA00031799738000000913
Figure BDA00031799738000000914
Figure BDA00031799738000000915
所述exp为指数计算函数;
所述第二动态卷积输出特征的注意力池向量为
Figure BDA00031799738000000916
Figure BDA00031799738000000917
Figure BDA00031799738000000918
Figure BDA00031799738000000919
W1,W2是预先设定的可训练矩阵参数;
其中,
Figure BDA0003179973800000101
优选的,S3具体包括:
所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果。
优选的,
所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果,具体包括:
所述隐式语篇关系分类模型的预测层采用指数映射函数将所述特征向量V投影到双曲空间,获取所述特征向量V在双曲空间中的对应值P;
其中指数映射函数为:
Figure BDA0003179973800000102
基于所述特征向量V在双曲空间中的对应值P,所述隐式语篇关系分类模型的预测层采用双曲空间中广义的多元逻辑回归MLR,进行分类处理,获取分类结果;
其中,所述分类结果为与对应值P对应的预先设定的语篇关系标签。
(三)有益效果
本发明的有益效果是:本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的上下文表示层采用BERT模型对句子进行编码,在单词级别学习相关语义。同时,本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型语义学习层将句子分别构建为句法依赖图,然后将两个句法图合并为一个语义图结构。以使其参与图学习的过程与独立学习句法结构的策略相比,可以同时学习句法依赖和语义交互。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征的过程中引入了门控注意力机制对各种依赖关系和语义交互进行编码,使得隐式语篇关系分类模型具有更好的泛化能力。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的预测层将提取第一语篇信息和第二语篇信息的语义特征通过指数映射投影到双曲线空间中,进行语篇关系分类,提高了预测语篇关系分类的准确性。
附图说明
图1为本发明提供一种隐含语篇关系的分类方法流程图;
图2为本发明中的隐式语篇关系分类模型结构示意图;
图3为本发明实施例中的语义交互图结构;
图4为本发明实施例中语篇关系的分类结果在庞加莱球上可视化图;
图5为采用本发明方法进行实验时超参数和精确度的关系示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
参见图1,本实施例提供一种隐含语篇关系的分类方法,包括:
S1、针对待分类的第一语篇信息和第二语篇信息,基于隐式语篇关系分类模型,获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构。
所述语义交互图结构中的句内边表示句法依赖关系,交互边表示第一语篇信息的节点和第二语篇信息的节点在当前句子对中具有的语义关联关系,节点为语篇信息的单词。
S2、针对所述语义交互图结构,获取与第一语篇信息和第二语篇信息对应的语义特征。
S3、将获取的语义特征借助于指数映射投影到双曲空间中,获取所述第一语篇信息和第二语篇信息的分类结果。
在本实施例的实际应用中,参见图2,所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型;所述上下文表示层、语义学习层执行获取语义交互图结构的过程,所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程,所述预测层执行获取分类结果的过程。
在本实施例的实际应用中,S1具体包括:
所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组。
其中,所述第一语篇信息表示向量组包括分别与所述第一语篇信息中的单词一一对应的具有上下文特征的编码向量;所述第二语篇信息表示向量组包括分别与所述第二语篇信息中的单词一一对应的具有上下文特征的编码向量。
所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构。
本实施例中由于在上下文表示层,由于提取语篇信息中具有上下文特征的编码向量,增强了语篇信息中的表示能力。
在本实施例的实际应用中,所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组,具体包括:
所述隐式语篇关系分类模型的上下文表示层采用预先设定的BERT模型分别对第一语篇信息和第二语篇信息进行处理,获取与第一语篇信息对应的第一单元组arg1和与第二语篇信息对应的第二单元组arg2
其中,所述第一单元组arg1为:
Figure BDA0003179973800000131
所述第二单元组arg2为:
Figure BDA0003179973800000132
M是arg1的长度;且M为预先设定的;N是arg2的长度;且N为预先设定的;
Figure BDA0003179973800000133
是Argi中第kth个单词的token;CLS和EOS分别是BERT模型中的嵌入的token。
将所述第一单元组arg1和所述第二单元组arg2进行拼接,获取第三单元组;所述第三单元组为:
Figure BDA0003179973800000134
SEP是标明语篇单元连接边界的嵌入标记。
所述BERT模型中的编码器对所述第三单元组进行处理,获取与第一语篇信息和第二语篇信息对应的向量组。
所述与第一语篇信息和第二语篇信息对应的向量组为:
[h0,h1,...,hM+N+2,hM+N+3];hn表示第三单元组中第n个token或嵌入标记所对应的具有上下文特征的编码向量。
基于第一语篇信息和第二语篇信息对应的向量组,获取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组;其中,所述第一语篇信息表示向量组为:[h0,h1,...,hM+1];所述第二语篇信息表示向量组为:[hM+2,hM+3,...,hM+N+3]。
在本实施例的实际应用中,所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构,具体包括:
所述隐式语篇关系分类模型的语义学习层采用Standford CoreNLP解析器分别针对第一语篇信息表示向量组和第二语篇信息表示向量组进行句法分析,分别获取所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息。
所述第一语篇信息的依存结构信息包括:第一语篇信息中单词的词性信息以及各单词之间的句法依赖关系;所述第二语篇信息的依存结构信息包括:第二语篇信息中单词的词性信息以及各单词之间的句法依赖关系。
分别基于所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息,分别获取第一语篇信息的句法关系图和第二语篇信息的句法关系图。
每一句法关系图中以相应语篇单元中的单词和词性作为节点,以相应语篇单元中单词和单词之间的句法依赖关系作为图中的节点之间的句内边。
基于第一语篇信息的句法关系图和第二语篇信息的句法关系图,构造语义交互图结构。
参见图3,本实施例中所述语义交互图结构包括第一语篇信息的句法关系图和第二语篇信息的句法关系图以及交互边。
所述交互边为在所述第一语篇信息中的任一单词和第二语篇信息中的任一单词之间满足预设条件的单词之间的边;所述预设条件为:表示单词之间语义关联关系的共现频率低于预先设定值。
所述单词之间的共现频率为B(arg1i,arg2j)。
其中,
Figure BDA0003179973800000151
B(arg1i,arg2j)是单词对(arg1i,arg2j)的共现频率;其中,arg1i为arg1中的第i个token所对应的单词;arg2i为arg2中的第j个token所对应的单词;p(arg1i,arg2j)是arg1i和arg2j在预先设定的PDTB2.0语料库中统计的一起出现的频率;p(arg1i)是arg1i在预先设定的PDTB2.0语料库中单独出现的频率;p(arg2j)是arg2j在预先设定的PDTB2.0语料库中单独出现的频率。
本实施例具体构造语义交互图结构过程中,不同句法关系图中节点之间的共现频率表示每对单词的语义关联程度,共现频率越大,语义关联度越强,反之亦然。如果关联度超过预定义阈值,则表示两个节点在当前句子对中具有语义关系。低于预定义阈值,则表示节点间语义关联程度较弱,对应的关系边被淘汰。本实施例中使滑动窗口策略,计算每对单词的共现频率。
本实施例中的语义交互图结构由于具有句内边和交互边,因此图神经网络可以同时学习句法依赖性和不同句法关系图中节点之间的语义交互特征。
在本实施例的实际应用中,S2具体包括:所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量。
其中,在图注意力网络GAT的网络相邻层特征传播的过程中,通过计算领域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态;所述语义交互图结构中的节点与所述第一语篇信息和第二语篇信息中的单词一一对应;所述图注意力网络GAT的层数为2。
所述隐式语篇关系分类模型的卷积层基于所述语义交互图结构中每一节点的句法特征向量,采用动态卷积网络分别对与第一语篇信息中单词对应的节点的句法特征向量和对与第二语篇信息中单词对应的节点的句法特征向量进行处理获取与第一语篇信息对应的第一动态卷积输出特征和与第二语篇信息对应的第二动态卷积输出特征。
本实施例中采用动态卷积网络来捕获两个语篇信息的特征,并使用具有不同过滤器大小的卷积运算自动学习不同范围的n-gram信息。
所述隐式语篇关系分类模型的聚合层基于第一动态卷积输出特征和第二动态卷积输出特征,分别采用max-pooling和attention-pooling进行处理分别获取第一动态卷积输出特征和第二动态卷积输出特征的最大池向量和注意力池向量,并聚合所述第一动态卷积输出特征的最大池向量和注意力池向量、第二动态卷积输出特征的最大池向量和注意力池向量,获取具有固定长度的特征向量V,并将所述特征向量V作为与第一语篇信息和第二语篇信息对应的语义特征。
本实施例中,max-pooling认为最大特征更具代表性,它选择最大特征作为从特定维度提取的特征的保留值,所有其他特征均被丢弃。Attention-pooling可以减少冗余信息,防止丢失关键信息,诸如句子结构等。
在本实施例的实际应用中,所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量,具体包括:
基于第一语篇信息表示向量组和第二语篇信息表示向量组获取与第一语篇信息和第二语篇信息对应的向量组,并将所述与第一语篇信息和第二语篇信息对应的向量组作为初始特征矩阵,输入所述隐式语篇关系分类模型的语义学习层中图注意力网络GAT的第一层。
基于所述初始特征矩阵,所述图注意力网络GAT的第一层通过计算邻域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层。
基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算领域节点的注意力权重,获取所述图注意力网络GAT的输出特征。
所述图注意力网络GAT的输出特征包括所述语义交互图结构中每一节点的句法特征向量。
在本实施例的实际应用中,基于初始特征矩阵,所述图注意力网络GAT的第一层通过计算相邻节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层,具体包括:
基于初始特征矩阵采用公式(1)获取语义交互图结构中节点j的特征对节点i的重要性z0ij
Figure BDA0003179973800000171
a是在语义交互图结构中节点上执行自注意力的共享注意力机制;本实施例中使用多头注意力机制。W是用于注意力机制的参数化权重矩阵;
Figure BDA0003179973800000172
为节点i在初始特征矩阵中所对应的编码向量;
Figure BDA0003179973800000173
为节点j在初始特征矩阵中所对应的编码向量。
基于语义交互图结构中节点j的特征对节点i的重要性z0ij,采用公式(2)获取语义交互图结构中节点i对节点j的注意力权重;
a0ij=softmaxj(z0ij) (2);
a0ij表示节点i对节点j的注意力权重;softmaxj表示激活函数。
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(3)获取语义交互图结构中节点的隐藏状态。
Figure BDA0003179973800000181
Figure BDA0003179973800000182
为语义交互图结构中节点i的隐藏状态tanh为激活函数;Ni为节点i的邻域。
其中,
Figure BDA0003179973800000183
relu为控制信息流的激活函数;we是预先设定的可训练矩阵。
Figure BDA0003179973800000184
LeakyRule为在语义交互图结构中的节点之间的边上执行自注意力的共享注意力机制。
er(i,j)是节点i和节点j之间具有预定义大小的关系向量。
Figure BDA0003179973800000185
所述基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算相邻节点的注意力权重,获取所述图注意力网络GAT的输出特征,具体包括:
基于隐藏状态采用公式(4)获取图注意力网络GAT的第二层提取的语义交互图结构中节点j的特征对节点i的重要性z1ij
Figure BDA0003179973800000186
Figure BDA0003179973800000187
为语义交互图结构中节点j的隐藏状态。
基于语义交互图结构中节点j的特征对节点i的重要性z1ij,采用公式(5)获取图注意力网络GAT的第二层提取语义交互图结构中节点j的特征对节点i的注意力权重。
a1ij=softmaxj(z1ij) (5)。
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(6)获取所述图注意力网络GAT的输出特征。
Figure BDA0003179973800000191
其中,
Figure BDA0003179973800000192
Figure BDA0003179973800000193
Figure BDA0003179973800000194
Figure BDA0003179973800000195
所述图注意力网络GAT的输出的语义交互图结构中节点i的的句法特征向量。在本实施例的实际应用中,所述第一动态卷积输出特征为
Figure BDA0003179973800000196
Figure BDA0003179973800000197
其中,所述第二动态卷积输出特征为
Figure BDA0003179973800000198
Figure BDA0003179973800000199
其中,Convc卷积网络的卷积核为c;c为预先设定值。
所述第一动态卷积输出特征的最大池向量为
Figure BDA00031799738000001910
Figure BDA00031799738000001911
所述第二动态卷积输出特征的最大池向量为
Figure BDA00031799738000001912
Figure BDA00031799738000001913
所述第一动态卷积输出特征的注意力池向量为
Figure BDA00031799738000001914
Figure BDA00031799738000001915
所述exp为指数计算函数。
所述第二动态卷积输出特征的注意力池向量为
Figure BDA00031799738000001916
Figure BDA00031799738000001917
W1,W2是预先设定的可训练矩阵参数。
其中,
Figure BDA00031799738000001918
在本实施例的实际应用中,S3具体包括:所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果。
在本实施例的实际应用中,所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果,具体包括:
所述隐式语篇关系分类模型的预测层采用指数映射函数将所述特征向量V投影到双曲空间,获取所述特征向量V在双曲空间中的对应值P;
其中指数映射函数为:
Figure BDA0003179973800000201
基于所述特征向量V在双曲空间中的对应值P,所述隐式语篇关系分类模型的预测层采用双曲空间中广义的多元逻辑回归MLR,进行分类处理,获取分类结果。
其中,所述分类结果为与对应值P对应的预先设定的语篇关系标签。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的预测层将提取第一语篇信息和第二语篇信息的语义特征通过指数映射投影到双曲线空间中,进行语篇关系分类,提高了预测语篇关系分类的准确性。
实验验证
本实施例中对隐含语篇关系分类任务采用本发明的一种隐含语篇关系的分类方法进行实验。首先介绍PDTB 2.0数据集,然后描述本文的实验设置,最后给出实验结果并进行详尽的分析。
PDTB 2.0是带有语篇关系的大型手动注释语料库。它注释了2312篇《华尔街日报》的文章。在PDTB 2.0数据集中,语篇关系存在三级结构,包括类,类型和子类型。大多数工作都集中在顶级,包括Contingency(偶然),Comparison(比较),Temporal(时间)andExpansion(发展)。第二级包括16种类型,其中5种类型的训练实例较少,并且没有验证集和测试集。所以,我们在四种顶级类和11种主要的二级类型上评估本文的隐式语篇关系分类模型。本实施例中选择2-20部分作为训练集,选择0-1部分作为验证集,并选择21-22部分作为测试集。表1显示了PDTB顶级语篇关系的数据统计。
表1:PDTB 2.0中四个顶级语篇关系的数据统计
Figure BDA0003179973800000211
实验设置,本实施例中使用BERT作为上下文表示层,以输出隐藏状态大小为768维的词嵌入,并在训练过程中对其进行微调。输入序列的最大长度设置为512,最小长度为3。对于图注意力网络GAT,我们将层数设置为2,注意头数设置为4,隐藏维度为128。对于动态卷积网络,我们采用3、4、5的滤波器,每个滤波器具有100个特征图,可以获取不同范围的n-gram特征,即多粒度语义信息。为了防止过度拟合,我们将dropout(遗弃率)应用到每一层,dropout rate为0.2。因为模型中存在欧几里德参数和双曲参数。我们分别对参数进行了梯度优化,欧几里得参数由Adam(参数优化函数)更新,双曲参数由黎曼自适应Adam更新,学习率皆为0.001。隐式语篇关系分类模型是由Pytorch实现的,所有的实验都在2块NVIDIA2080Ti GPU上执行。
本实施例中制定隐式语篇关系分类模型的评估指标,并直接与现有的模型进行比较。Macro-averaged F1值是四类分类的主要指标,准确率被认为是多分类问题的主要指标。对于二进制分类,采用F1值评估模型在每个类的性能。
表2
Figure BDA0003179973800000221
表2:根据宏观平均F1(%)和准确率(ACC.%)评估模型在PDTB上进行多分类的性能。
表2显示了多分类的结果。本文的隐式语篇关系分类模型在所有分类设置中都得到了实质性改进,不可否认,BERT对本文的方法有极大的改善。图神经网络沿关系边收集相邻节点信息时,图注意力网络GAT所捕获的句法结构和语义交互为关系识别提供了额外的信息。重要节点通过句法依赖被有效的连接起来,依赖关系不仅可以用来提取语法特征,还可以在训练过程中进行自我调整以适应关系识别的任务,这表明句内结构在关系分类中也起了关键作用。此外,为了收集细粒度的交互信息,我们使用共现词作为确定两个文本跨度之间关系的线索。此策略可能会受到数据稀疏性问题的影响,因为文本之间可能没有足够的共现词。在PDTB-11中,F1分数首次突破60%,原因是双曲空间有效匹配了多层次的语篇关系数据。
表3
Figure BDA0003179973800000222
表3总结了模型在PDTB 2.0中对顶级语篇关系进行二进制分类的实验结果。与现有的模型相比,本实施例中的隐式语篇关系分类模型表现更好。Temporal在语料库中具有最少数量的可训练实例,本实施例中的隐式语篇关系分类模型缺乏足够的训练数据来捕获潜在的语篇关系,因此得分较低。Comparison和Expansion分数较高,有以下三个原因:1)更多的可训练语篇实例。2)BERT通过自我注意力识别与语篇关系相关的单词,获取了准确的语义信息并提供了好的文本表示。3)语篇单元存在近似词对,图网络的多头注意力提供了有用的信息。
消融实验
我们从本实施例中的隐式语篇关系分类模型中逐一删除了关系边缘(RE)和双曲线空间(HBS)。
w/o RE,它使用普通的GAT,不考虑关系边。
w/o HBS,模型去掉双曲空间,使用欧几里德空间的多元逻辑回归进行预测,得到预测结果,参见表4。
表4
Figure BDA0003179973800000231
从表4中,我们可以看到两个模块都有助于提高本实施例中的隐式语篇关系分类模型的性能,这两个模块在训练过程中相互补充,并帮助我们的模型获得最佳性能。忽略关系边的权重,本实施例中的隐式语篇关系分类模型效率降低了2.68%,这表明关系边包含重要特征,并且图注意力网络通过关系边学习了额外的语义信息,结果与我们之前的想法相同。在二级11向分类中,使用普通softmax的工作不如使用双曲空间MLR,这证实了双曲空间更适合本任务,且性能优于一般欧几里德模型。多层次的语篇关系的分类结果可以在庞加莱球上可视化如图4,参见图5,低层级的语篇意义分布在庞加莱球边界附近,顶层语篇意义嵌入原点附近,这证明以测地距离为度量,双曲几何的层次组织能力可以还原语篇关系的层次结构。
噪声的影响,隐式语篇关系分类模型的超参数αo-occurs确定了交互边的保留率。对于四向分类,从图5中可以看到,当αo-occurs从0.1到0.4时,准确率得到了显着提高,这表明一定数量的交互边对任务很有帮助。但是,当αo-occurs大于0.4时,准确率会波动,并且完全交互(αo-occurs=0)不能使隐式语篇关系分类模型模型达到最优,这意味着多余的交互边可能会产生噪声并引起隐式语篇关系分类模型过拟合。对于11向分类,当αo-occurs等于0.3时,隐式语篇关系分类模型最优。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的上下文表示层采用BERT模型对句子进行编码,在单词级别学习相关语义。同时,本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型语义学习层将句子分别构建为句法依赖图,然后将两个句法图合并为一个语义图结构。以使其参与图学习的过程与独立学习句法结构的策略相比,可以同时学习句法依赖和句子交互。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征的过程中引入了门控注意力机制对各种依赖关系和语义交互进行编码,使得隐式语篇关系分类模型具有更好的泛化能力。
本发明的一种隐含语篇关系的分类方法,由于在隐式语篇关系分类模型中的预测层将提取第一语篇信息和第二语篇信息的语义特征通过指数映射投影到双曲线空间中,进行语篇关系分类,提高了预测语篇关系分类的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种隐含语篇关系的分类方法,其特征在于,包括:
S1、针对待分类的第一语篇信息和第二语篇信息,基于隐式语篇关系分类模型,获取第一语篇信息和第二语篇信息中语义信息的语义交互图结构;
所述语义交互图结构中的句内边表示句法依赖关系,交互边表示第一语篇信息的节点和第二语篇信息的节点在当前句子对中具有的语义关联关系,节点为语篇信息的单词;
S2、针对所述语义交互图结构,获取与第一语篇信息和第二语篇信息对应的语义特征;
S3、将获取的语义特征借助于指数映射投影到双曲空间中,获取所述第一语篇信息和第二语篇信息的分类结果;
其中,所述基于隐式语篇关系分类模型为预先建立并训练的包括有上下文表示层、语义学习层、卷积层、聚合层和预测层的模型;
所述上下文表示层、语义学习层执行获取语义交互图结构的过程,所述语义学习层、卷积层和所述聚合层执行获取语义特征的过程,所述预测层执行获取分类结果的过程。
2.根据权利要求1所述的方法,其特征在于,S1具体包括:
所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组;
其中,所述第一语篇信息表示向量组包括分别与所述第一语篇信息中的单词一一对应的具有上下文特征的编码向量;所述第二语篇信息表示向量组包括分别与所述第二语篇信息中的单词一一对应的具有上下文特征的编码向量;
所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构。
3.根据权利要求2所述的方法,其特征在于,所述隐式语篇关系分类模型的上下文表示层针对待分类的第一语篇信息和第二语篇信息提取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组,具体包括:
所述隐式语篇关系分类模型的上下文表示层采用预先设定的BERT模型分别对第一语篇信息和第二语篇信息进行处理,获取与第一语篇信息对应的第一单元组arg1和与第二语篇信息对应的第二单元组arg2
其中,所述第一单元组arg1为:
Figure FDA0003179973790000021
所述第二单元组arg2为:
Figure FDA0003179973790000022
M是arg1的长度;且M为预先设定的;
N是arg2的长度;且N为预先设定的;
Figure FDA0003179973790000023
是Argi中第kth个单词的token;
CLS和EOS分别是BERT模型中的嵌入的token;
将所述第一单元组arg1和所述第二单元组arg2进行拼接,获取第三单元组;
所述第三单元组为:
Figure FDA0003179973790000024
SEP是标明语篇单元连接边界的嵌入标记;
所述BERT模型中的编码器对所述第三单元组进行处理,获取与第一语篇信息和第二语篇信息对应的向量组;
所述与第一语篇信息和第二语篇信息对应的向量组为:
[h0,h1,...,hM+N+2,hM+N+3];
hn表示第三单元组中第n个token或嵌入标记所对应的具有上下文特征的编码向量;
基于第一语篇信息和第二语篇信息对应的向量组,获取与第一语篇信息对应的第一语篇信息表示向量组和与第二语篇信息对应的第二语篇信息表示向量组;
其中,所述第一语篇信息表示向量组为:[h0,h1,...,hM+1];
所述第二语篇信息表示向量组为:[hM+2,hM+3,...,hM+N+3]。
4.根据权利要求3所述的方法,其特征在于,所述隐式语篇关系分类模型的语义学习层基于第一语篇信息表示向量组和第二语篇信息表示向量组,采用预先设定的构图策略构建语义交互图结构,具体包括:
所述隐式语篇关系分类模型的语义学习层采用Standford CoreNLP解析器分别针对第一语篇信息表示向量组和第二语篇信息表示向量组进行句法分析,分别获取所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息;
所述第一语篇信息的依存结构信息包括:第一语篇信息中单词的词性信息以及各单词之间的句法依赖关系;
所述第二语篇信息的依存结构信息包括:第二语篇信息中单词的词性信息以及各单词之间的句法依赖关系;
分别基于所述第一语篇信息的依存结构信息和第二语篇信息的依存结构信息,分别获取第一语篇信息的句法关系图和第二语篇信息的句法关系图;
每一句法关系图中以相应语篇单元中的单词和词性作为节点,以相应语篇单元中单词和单词之间的句法依赖关系作为图中的节点之间的句内边;
基于第一语篇信息的句法关系图和第二语篇信息的句法关系图,构造语义交互图结构;
所述语义交互图结构包括第一语篇信息的句法关系图和第二语篇信息的句法关系图以及交互边;
所述交互边为在所述第一语篇信息中的任一单词和第二语篇信息中的任一单词之间满足预设条件的单词之间的边;
所述预设条件为:表示单词之间语义关联关系的共现频率低于预先设定值;
所述单词之间的共现频率为B(arg1i,arg2j);
其中,
Figure FDA0003179973790000041
B(arg1i,arg2j)是单词对(arg1i,arg2j)的共现频率;
其中,arg1i为arg1中的第i个token所对应的单词;
arg2i为arg2中的第j个token所对应的单词;
p(arg1i,arg2j)是arg1i和arg2j在预先设定的PDTB2.0语料库中统计的一起出现的频率;
p(arg1i)是arg1i在预先设定的PDTB2.0语料库中单独出现的频率;
p(arg2j)是arg2j在预先设定的PDTB2.0语料库中单独出现的频率。
5.根据权利要求4所述的方法,其特征在于,S2具体包括:
所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量;
其中,在图注意力网络GAT的网络相邻层特征传播的过程中,通过计算领域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态;所述语义交互图结构中的节点与所述第一语篇信息和第二语篇信息中的单词一一对应;
所述图注意力网络GAT的层数为2;
所述隐式语篇关系分类模型的卷积层基于所述语义交互图结构中每一节点的句法特征向量,采用动态卷积网络分别对与第一语篇信息中单词对应的节点的句法特征向量和对与第二语篇信息中单词对应的节点的句法特征向量进行处理获取与第一语篇信息对应的第一动态卷积输出特征和与第二语篇信息对应的第二动态卷积输出特征;
所述隐式语篇关系分类模型的聚合层基于第一动态卷积输出特征和第二动态卷积输出特征,分别采用max-pooling和attention-pooling进行处理分别获取第一动态卷积输出特征和第二动态卷积输出特征的最大池向量和注意力池向量,并聚合所述第一动态卷积输出特征的最大池向量和注意力池向量、第二动态卷积输出特征的最大池向量和注意力池向量,获取具有固定长度的特征向量V,并将所述特征向量V作为与第一语篇信息和第二语篇信息对应的语义特征。
6.根据权利要求5所述的方法,其特征在于,所述隐式语篇关系分类模型的语义学习层采用图注意力网络GAT提取所述语义交互图结构中每一节点的句法特征,获取所述语义交互图结构中每一节点的句法特征向量,具体包括:
基于第一语篇信息表示向量组和第二语篇信息表示向量组获取与第一语篇信息和第二语篇信息对应的向量组,并将所述与第一语篇信息和第二语篇信息对应的向量组作为初始特征矩阵,输入所述隐式语篇关系分类模型的语义学习层中图注意力网络GAT的第一层;
基于所述初始特征矩阵,所述图注意力网络GAT的第一层通过计算邻域节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层;
基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算领域节点的注意力权重,获取所述图注意力网络GAT的输出特征;
所述图注意力网络GAT的输出特征包括所述语义交互图结构中每一节点的句法特征向量。
7.根据权利要求6所述的方法,其特征在于,基于初始特征矩阵,所述图注意力网络GAT的第一层通过计算相邻节点的注意力权重,来获取语义交互图结构中节点的隐藏状态,并将所述隐藏状态输入图注意力网络GAT的第二层,具体包括:
基于初始特征矩阵采用公式(1)获取语义交互图结构中节点j的特征对节点i的重要性z0ij
Figure FDA0003179973790000061
a是在语义交互图结构中节点上执行自注意力的共享注意力机制;
W是用于注意力机制的参数化权重矩阵;
Figure FDA0003179973790000062
为节点i在初始特征矩阵中所对应的编码向量;
Figure FDA0003179973790000063
为节点j在初始特征矩阵中所对应的编码向量;
基于语义交互图结构中节点j的特征对节点i的重要性z0ij,采用公式(2)获取语义交互图结构中节点i对节点j的注意力权重;
a0ij=softmaxj(z0ij) (2);
a0ij表示节点i对节点j的注意力权重;
softmaxj表示激活函数;
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(3)获取语义交互图结构中节点的隐藏状态;
Figure FDA0003179973790000064
Figure FDA0003179973790000065
为语义交互图结构中节点i的隐藏状态;
tanh为激活函数;
Ni为节点i的邻域;
其中,
Figure FDA0003179973790000071
relu为控制信息流的激活函数;
we是预先设定的可训练矩阵;
Figure FDA0003179973790000072
LeakyRule为在语义交互图结构中的节点之间的边上执行自注意力的共享注意力机制;
er(i,j)是节点i和节点j之间具有预定义大小的关系向量;
Figure FDA0003179973790000073
所述基于所述隐藏状态,所述图注意力网络GAT的第二层通过计算相邻节点的注意力权重,获取所述图注意力网络GAT的输出特征,具体包括:
基于隐藏状态采用公式(4)获取图注意力网络GAT的第二层提取的语义交互图结构中节点j的特征对节点i的重要性z1ij
Figure FDA0003179973790000074
Figure FDA0003179973790000075
为语义交互图结构中节点j的隐藏状态;
基于语义交互图结构中节点j的特征对节点i的重要性z1ij,采用公式(5)获取图注意力网络GAT的第二层提取语义交互图结构中节点j的特征对节点i的注意力权重;
a1ij=softmaxj(z1ij) (5);
基于语义交互图结构中节点j的特征对节点i的注意力权重,采用公式(6)获取所述图注意力网络GAT的输出特征;
Figure FDA0003179973790000076
其中,
Figure FDA0003179973790000077
Figure FDA0003179973790000081
Figure FDA0003179973790000082
Figure FDA0003179973790000083
所述图注意力网络GAT的输出的语义交互图结构中节点i的的句法特征向量。
8.根据权利要求7所述的方法,其特征在于,
所述第一动态卷积输出特征为
Figure FDA0003179973790000084
Figure FDA0003179973790000085
其中,所述第二动态卷积输出特征为
Figure FDA0003179973790000086
Figure FDA0003179973790000087
其中,Convc卷积网络的卷积核为c;c为预先设定值;
所述第一动态卷积输出特征的最大池向量为
Figure FDA0003179973790000088
Figure FDA0003179973790000089
所述第二动态卷积输出特征的最大池向量为
Figure FDA00031799737900000810
Figure FDA00031799737900000811
所述第一动态卷积输出特征的注意力池向量为
Figure FDA00031799737900000812
Figure FDA00031799737900000813
Figure FDA00031799737900000814
Figure FDA00031799737900000815
所述exp为指数计算函数;
所述第二动态卷积输出特征的注意力池向量为
Figure FDA00031799737900000816
Figure FDA00031799737900000817
Figure FDA00031799737900000818
Figure FDA00031799737900000819
W1,W2是预先设定的可训练矩阵参数;
其中,
Figure FDA0003179973790000091
9.根据权利要求8所述的方法,其特征在于,S3具体包括:
所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果。
10.根据权利要求8所述的方法,其特征在于,
所述隐式语篇关系分类模型的预测层获取所述特征向量V在双曲空间中的对应值P,并基于所述P对第一语篇信息和第二语篇信息的语篇关系进行分类,获取分类结果,具体包括:
所述隐式语篇关系分类模型的预测层采用指数映射函数将所述特征向量V投影到双曲空间,获取所述特征向量V在双曲空间中的对应值P;
其中指数映射函数为:
Figure FDA0003179973790000092
基于所述特征向量V在双曲空间中的对应值P,所述隐式语篇关系分类模型的预测层采用双曲空间中广义的多元逻辑回归MLR,进行分类处理,获取分类结果;
其中,所述分类结果为与对应值P对应的预先设定的语篇关系标签。
CN202110843643.2A 2021-07-26 2021-07-26 一种隐含语篇关系的分类方法 Active CN113590821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843643.2A CN113590821B (zh) 2021-07-26 2021-07-26 一种隐含语篇关系的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843643.2A CN113590821B (zh) 2021-07-26 2021-07-26 一种隐含语篇关系的分类方法

Publications (2)

Publication Number Publication Date
CN113590821A true CN113590821A (zh) 2021-11-02
CN113590821B CN113590821B (zh) 2023-04-14

Family

ID=78249958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843643.2A Active CN113590821B (zh) 2021-07-26 2021-07-26 一种隐含语篇关系的分类方法

Country Status (1)

Country Link
CN (1) CN113590821B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880428A (zh) * 2022-03-07 2022-08-09 中国人民解放军国防科技大学 一种基于图神经网络的语篇成分识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
US20200364409A1 (en) * 2019-05-17 2020-11-19 Naver Corporation Implicit discourse relation classification with contextualized word representation
CN112487189A (zh) * 2020-12-08 2021-03-12 武汉大学 一种图卷积网络增强的隐式篇章文本关系分类方法
CN112699688A (zh) * 2021-01-08 2021-04-23 北京理工大学 一种篇章关系可控的文本生成方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364409A1 (en) * 2019-05-17 2020-11-19 Naver Corporation Implicit discourse relation classification with contextualized word representation
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111651974A (zh) * 2020-06-23 2020-09-11 北京理工大学 一种隐式篇章关系分析方法和系统
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN112487189A (zh) * 2020-12-08 2021-03-12 武汉大学 一种图卷积网络增强的隐式篇章文本关系分类方法
CN112699688A (zh) * 2021-01-08 2021-04-23 北京理工大学 一种篇章关系可控的文本生成方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
凡子威等: "基于BiLSTM并结合自注意力机制和句法信息的隐式篇章关系分类", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880428A (zh) * 2022-03-07 2022-08-09 中国人民解放军国防科技大学 一种基于图神经网络的语篇成分识别方法

Also Published As

Publication number Publication date
CN113590821B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Lin et al. Denoising distantly supervised open-domain question answering
CN108287822B (zh) 一种中文相似问题生成系统与方法
Yu et al. Beyond Word Attention: Using Segment Attention in Neural Relation Extraction.
Samuel et al. Dialogue act tagging with transformation-based learning
Choi et al. Identifying sources of opinions with conditional random fields and extraction patterns
CN101599071B (zh) 对话文本主题的自动提取方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
Vivaldi et al. Improving term extraction by system combination using boosting
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
WO2024036840A1 (zh) 基于主题增强的开放域对话回复方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN111368540A (zh) 一种基于语义角色分析的关键词信息抽取方法
Bai et al. Sentiment extraction from unstructured text using tabu search-enhanced markov blanket
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN113590821B (zh) 一种隐含语篇关系的分类方法
CN117009213A (zh) 面向智能问答系统逻辑推理功能的蜕变测试方法及系统
CN109977397A (zh) 基于词性组合的新闻热点提取方法、系统及存储介质
Xu et al. Connective prediction using machine learning for implicit discourse relation classification
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
Ogunsuyi Opeyemi et al. K-nearest neighbors bayesian approach to false news detection from text on social media
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230330

Address after: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5

Applicant after: NORTH CHINA University OF TECHNOLOGY

Address before: No. 56, Xisanhuan North Road, Haidian District, Beijing 100083

Applicant before: Capital Normal University

GR01 Patent grant
GR01 Patent grant