CN111488739B - 基于多粒度生成图像增强表示的隐式篇章关系识别方法 - Google Patents

基于多粒度生成图像增强表示的隐式篇章关系识别方法 Download PDF

Info

Publication number
CN111488739B
CN111488739B CN202010188895.1A CN202010188895A CN111488739B CN 111488739 B CN111488739 B CN 111488739B CN 202010188895 A CN202010188895 A CN 202010188895A CN 111488739 B CN111488739 B CN 111488739B
Authority
CN
China
Prior art keywords
argument
chapter
image
vector
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010188895.1A
Other languages
English (en)
Other versions
CN111488739A (zh
Inventor
贺瑞芳
王建
贺迎春
郭凤羽
朱永凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010188895.1A priority Critical patent/CN111488739B/zh
Publication of CN111488739A publication Critical patent/CN111488739A/zh
Application granted granted Critical
Publication of CN111488739B publication Critical patent/CN111488739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多粒度生成图像增强表示的隐式篇章关系识别方法,由于文本本身存在多义性、模糊性等问题,我们首次对联想策略进行了仿真,提出了一种多粒度生成的图像并用于增强论元向量表示的神经网络。具体来说,我们根据文本的不同粒度(句子级和短语级)来引入相应的图像,这有助于理解篇章的语义。为了更好地捕捉文本图像的上下文信息,我们根据文本的序列信息将文本和图像特征进行整合,然后利用自注意力机制捕获由两个论元拼接而成的图文向量序列表示整体中的重要图文信息和交互信息,从而进一步丰富论元向量表示,并得到用于识别篇章关系的特征向量表示,最后将用于识别篇章关系的特征向量表示输入到篇章关系识别层进行篇章关系识别。

Description

基于多粒度生成图像增强表示的隐式篇章关系识别方法
技术领域
本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为基于多粒度生成图像增强表示的隐式篇章关系识别方法。
背景技术
篇章分析是自然语言处理(NLP)中的一项基本任务,它对潜在的篇章关系结构进行分析,并挖掘文本单元之间的联系。目前,尽管在包含显式连接词(如“因为”,“但是”)的显式篇章关系识别任务上取得了巨大进步,但是由于篇章连接词的缺失(Pitler et al.,2009)[2],隐式篇章关系识别仍然是一个挑战。提升隐式篇章关系识别任务可以对许多流行自然语言处理(Natural Language Processing,NLP)任务有所帮助,如机器翻译(Li etal.,2014)[3],自动问答等。
现有的基于神经网络的模型已经在隐式篇章关系任务中取得一定的成功。1)基本神经网络(Zhang et al.,2015;Liu and Li.,2016)[4,5]可以学习篇章论元的稠密向量表示,它可以在一定程度上捕获语义信息,如卷积神经网络(Convolutional NeuralNetworks,CNN)和循环神经网络(Recurrent Neural Network,RNN),但是忽略了文本序列中每个词汇的重要性差异;2)许多研究使用注意力神经网络捕获序列词汇的重要性差异,(Lui et al.,2016;Lan et al.,2017;et al.,2017)[6-8]在稠密篇章论元向量表示基础上学习论元序列中每个词汇的重要性,选择性抽取出论元中的重要词汇,但是忽略了论元间的深层交互信息;3)(Chen et al.,2016;Lei et al.,2017;Guo et al.,2018)[9-11]等虽然考虑到论元间的深层交互信息,使用交互神经网络学习论元对的交互表示,捕获更为丰富的语义信息,但是忽略了不同粒度的论元表示所包含的不同语义信息;4)多粒度神经网络从多粒度的角度来增强论元表示,例如,(Qin et al.,2016;Dai et al.,2018;Bai et al.,2018)[12-14]通过挖掘更细粒度的论元表示,利用不同粒度的论元表示捕获论元语义信息,进而增强篇章关系识别能力。虽然他们在一定程度上很好地捕获了论元语义信息,但是这些方法大多数仅关注于文本本身,由于文本语义可能存在多义性,歧义性等问题,而且与语境高度相关。因此论元本身的信息可能不足以用于精确的语义理解。
在认知心理学领域中,(Leutner et al.,2009;Mason et al.,2013)[15,16]证明了构建心理图像可以减少认知负担,增强理解力和学习效果,并且文字和图像的综合处理对于理解图文起着重要作用,这表明了联想机制产生的联想画面有助于帮助理解文本信息。
在计算机视觉领域中,1)(Mao et al.,2014;Pan et al.,2016)[17,18]等已经证明图像能表达相关句子的重要信息;2)(Jin et al.,2017)[19]通过将文本表示和图像表示进行拼接获得文本-图像联合表示,进而对文本及文本对应的图像进行分类;3)(Xu etal.,2018)[1]通过注意力生成网络(AttnGAN)关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节,进而可以根据给定的文本得到较高质量的图像。受到他们工作的启发,考虑图像的上下文信息,对于句子语义理解和篇章关系识别是必不可少的。
发明内容
本发明的目的是为了克服现有技术中的不足,提供基于多粒度生成图像增强表示的隐式篇章关系识别方法,为了缓解文本自身的多义性、模糊性等问题,本发明首次对联想策略进行了仿真,提出了一种基于多粒度生成的图像并用于增强论元向量表示的神经网络。具体来说,根据文本的不同粒度(句子级和短语级)来引入相应的图像,这有助于理解篇章的语义。为了更好地捕捉文本图像的上下文信息,根据文本的序列信息将文本和图像特征进行整合,从而进一步丰富论元向量表示,从而有效地推断篇章关系。
本发明的目的是通过以下技术方案实现的:基于多粒度生成图像增强表示的隐式篇章关系识别方法,包括以下步骤:
(101)构建融合层:融合层内包括词嵌入模块、图像生成模块和文本-图像融合模块:1)词嵌入模块通过在嵌入空间中将篇章论元Arg1,Arg2的词向量序列表示逐一映射成两个篇章论元的向量表示,以捕篇章论元的上下文;2)图像生成模块通过文本到图像的生成神经网络生成篇章论元对应的图像,其包括句子级别的论元图像生成和短语级别的论元图像生成,然后通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像的特征,即图像的向量表示;3)文本-图像融合模块将篇章论元向量表示和篇章论元对应的短语、句子图像的向量表示依次拼接后得到篇章论元图文向量序列表示;
(102)构建注意力控制层:通过双向长短期记忆神经网络(Bidirectional LongShort-Term Memory,BiLSTM)学习包含图文信息的篇章论元的语义信息,并利用注意力机制捕获篇章论元中重要的词汇信息,将捕获到的重要词汇信息融入篇章论元的表示学习中,以加深对篇章论元的语义理解,从而获取融合重要图文信息的篇章论元表示;
(103)构建基于自注意力机制的图文交互层:在不同论元中的单词对判断两个论元间的篇章关系都有不同的重要信息,不同论元生成的图像信息也有着不同的交互信息。因此将两个论元的图文向量序列表示拼接成一个整体后输入到基于自注意力机制(Self-attention mechanism)的图文交互层可以捕获融合文本、图像的交互信息,从而捕获每个单词、图像内在的语义信息,以生成语义丰富的用于识别篇章关系的特征向量表示;
(104)构建篇章关系识别层:利用步骤(103)生成的篇章关系向量对隐式篇章关系进行识别。
进一步的,步骤(101)中具体包括:1)词嵌入模块,给定论元对其中l1,l2分别是论元Arg1和Arg2的单词个数,/>分别是Arg1,Arg2中第i个和第j单词。将每个单词/>在预先训练的单词嵌入上进行查表操作获取对应的低维分布式向量表示后分别组成词向量序列表示即可获得篇章论元Arg1和Arg2的论元向量序列表示:Textrep1,Textrep2;2)图像生成模块,选择(Xu et al.,2018)[1]提出的具有注意力生成对抗网络的细粒度文本到图像生成模型(Fine-Grained Text to Image Generation with Attentional GenerativeAdversarial Networks,AttnGAN)来实现文本到图像的生成。AttnGAN的输入是论元的特征表示序列,输出的结果经过卷积神经网络(Convolutional Neural Networks,CNN)得到图像向量表示。具体来说,将两个论元和它们的短语分别输入AttnGAN,然后可以获得由卷积神经网络(Convolutional Neural Networks,CNN)产生的句子和短语图像向量表示:和/>其中/>分别表示Arg1中第k个短语的图像向量表示和Arg2中第l个短语的图像向量表示,pn,pm分别表示Arg1和Arg2中短语的个数,/>分别表示Arg1和Arg2的句子级图像向量表示;3)文本-图像融合模块,在获得论元向量表示Textrep1,Textrep2以及论元,论元短语的图像向量表示/>和/>后,根据图像向量表示生成的时间顺序依次与论元向量表示进行拼接得到融合文本和图像的图文向量序列表示:
进一步的,步骤(102)具体包括:采用BiLSTM进行序列编码,结合历史信息和未来信息以增强图文向量的语义丰富性;具体来说,对于第t个时间步,LSTM读取单词xt作为输入,ht作为输出,具体公式如下:
ht=ot⊙tanh(ct) (4)
其中,it,ft,ot,ct,ht分别表示输入门、遗忘门、输出门、存储单元和隐藏状态;TA,b是依赖于网络参数的映射变换矩阵;ct-1表示上一时刻(t-1)的存储单元状态,是当前时刻存储单元到即时状态,ht-1表示t-1时刻的隐藏层状态;σ表示sigmoid函数,双曲正切函数tanh是在t-1时刻作用于ht-1和TA,b上的激活函数,⊙表示元素乘积。
利用双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)对论元图文向量序列表示Argrep1,Argrep2进行建模;BiLSTM通过正向和反向两个单独的LSTM保存历史和未来信息;得到在序列的每个时间步长t处的两个表示和/>后将它们拼接在一起作为句子向量表示/>最后采用注意力机制捕获重要的图文信息:
M=tanh(H) (5)
α=softmax(wTM) (6)
Argrep=HαT (7)
公式(5)中,H是由输出向量[h1,h2,...,hn]组成的矩阵,其中n是论元的长度,即每个论元所包含的单词数量,d表示单词嵌入向量的维度,H经过双曲正切函数tanh函数而得到隐藏层状态向量表示矩阵M;公式(6)中,w的转置wT表示权重参数向量;softmax函数将加权的隐藏层状态向量表示矩阵M转化为概率分布,称为每个单词的注意力值;公式(7)中,Argrep是由输出向量进行加权求和计算得到的新的论元图文向量序列表示,α的转置αT作为输出向量的权重。因此,对于论元图文向量序列表示Argrep1,Argrep2,通过上述公式可以获得Arg1和Arg2的包含重要图文信息的新的论元图文向量序列表示:Argrep1',Argrep2'。
进一步的,步骤(103)具体包括:为了从整体上捕获两个包含重要图文信息的新的论元图文向量序列表示Argrep1',Argrep2'的文本-图像交互信息,首先通过拼接Argrep1',Argrep2'获得整个论元图文向量序列表示Argrep',然后使用自注意力机制捕获重要的图文向量序列表示单元,这里自注意力定义为:
其中,分别表示查询矩阵、键名矩阵和键值矩阵。Q,K和V的初始值都是Argrep',la是Argrep'的长度,dk是Argrep'的维度,其等于单词嵌入向量的维度d。由此,可以得到包含重要文本图像信息和注意权重的用于识别篇章关系的特征向量表示output。
进一步的,步骤(104)具体包括:在获得用于识别篇章关系的特征向量表示output后,使用softmax函数对output进行归一化,即可得到两个论元间的篇章关系。将output输入到分类层中,将得到篇章关系概率分布。公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,y是真实关系的one-hot表示,/>是预测关系的表示。损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(10);
其中,yj,分别是第j真实关系的one-hot表示和预测关系的向量表示。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)本发明方法模拟人类阅读文本时的联想机制,采用了多模态的方法编码篇章论元。一方面,模型通过词嵌入模块获取文本对应的单词嵌入向量;另一方面模型通过文本图像生成模块获取篇章论元对应的图像向量。模型综合考虑了篇章论元的文本信息和篇章论元所对应的想象出的场景图像信息,从多个角度帮助计算机理解篇章论元,增强了篇章论元的表示能力,促进了模型对篇章关系的理解能力,缓解了文本自身的多义性、模糊性等问题。
(2)为了捕获丰富的图文信息,本发明方法采用多粒度的图像生成来从不同层级的角度去理解论元文本的语义,其包括论元句子级的图像向量表示和论元短语级的图像向量表示。具体来说,将篇章论元及篇章论元对应的短语分别输入到文本图像生成模块中得到对应的句子图像向量和短语图像向量,在将论元文本向量和图像向量融合之后,进一步地利用了BiLSTM学习图文向量序列表示的上下文信息,并使用注意力机制捕获了图文向量序列表示的重要信息。
(3)为了挖掘篇章论元对的内部交互信息,使用自注意力机制去学习两个论元向量序列表示拼接后的整体图文向量序列表示中每个图文向量表示单元之间的关系信息和相关性,从而可以更好地学习到包含重要图文信息的用于识别篇章关系的特征向量表示以进行篇章关系识别。
附图说明
图1为本发明提供的基于多粒度生成图像增强表示的隐式篇章关系识别方法框架示意图;
图2a为短语“eat a big pizza”的自注意力可视化图;
图2b为短语“go to bed”的自注意力可视化图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以宾州篇章树库(Penn Discourse TreeBank,PDTB)数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括数据集预处理、文本-图像编码融合、捕获论元内的重要图文信息、建模文本-图像交互组件、篇章关系预测这几个步骤。
具体步骤如下:
(1)数据集预处理
宾州篇章树库(Penn Discourse Treebank,PDTB)是一个在2,312篇华尔街日报文章上进行标注得到的大规模语料库。PDTB根据不同粒度,将篇章关系分为三层:第一层4类,第二层16类,第三层23类,共43类。第一层为四种主要的关系类型:对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB为原始语料,并按照以下步骤对原始语料进行处理:对PDTB数据集的使用了两种分割方法,1)是PDTB-Lin[20],它分别使用第2-21、22和23节作为训练、开发和测试集;2)是PDTB-Ji[21],它分别使用第2-20、0-1和21-22节作为训练、开发和测试集。根据PDTB-Ji,由于五种关系类型的训练实例很少并且没有dev和test实例,因此除去这五种类型后,PDTB-Ji数据集中仍有11种二级类型。表1显示了PDTB-JI的第一级的统计信息。
表1 PDTB-JI的第一级篇章关系的统计信息
篇章关系 训练集 开发集 测试集
Comparison 1898 191 146
Contingency 3288 287 276
Expansion 6900 651 556
Temporal 689 54 68
Total 12775 1183 1046
(2)文本-图像编码融合
按照上步完成数据集的预处理后,将训练集按批次将论元分别作为词嵌入模块和文本到图像生成模块的输入,即会得到论元的向量序列表示和论元以及论元短语的图像向量表示:Textrep1,Textrep2以及其中/>分别表示Arg1中第k个短语的图像向量表示和Arg2中第l个短语的图像向量表示,pn,pm分别表示Arg1和Arg2中短语的个数,分别表示Arg1和Arg2的句子级图像向量表示;最后根据图像表示生成的时间顺序依次与论元向量表示进行拼接得到融合文本和图像的图文向量序列表示:
(3)捕获论元内的重要图文信息
按照上一步的到的论元图文向量序列表示,用BiLSTM去编码它们的序列语义,对于第t个时间步,LSTM读取单词xt作为输入,ht作为输出,具体公式如下:
ht=ot⊙tanh(ct) (4)
其中,it,ft,ot,ct,ht分别表示输入门、遗忘门、输出门、存储单元和隐藏状态;TA,b是依赖于网络参数的映射变换矩阵;ct-1表示上一时刻(t-1)的存储单元状态,是当前时刻存储单元到即时状态,ht-1表示t-1时刻的隐藏层状态;σ表示sigmoid函数,双曲正切函数tanh是在t-1时刻作用于ht-1和TA,b上的激活函数,⊙表示元素乘积。
利用双向LSTM神经网络(Bidirectional Long Short-Term Memory,BiLSTM)对论元图文向量序列表示Argrep1,Argrep2进行建模;BiLSTM通过正向和反向两个单独的LSTM保存历史和未来信息;得到在序列的每个时间步长t处的两个表示和/>后将它们拼接在一起作为句子向量表示/>最后采用注意力机制捕获重要的图文信息:
M=tanh(H) (5)
α=softmax(wTM) (6)
Argrep=HαT (7)
公式(5)中,H是由输出向量[h1,h2,...,hn]组成的矩阵,其中n是论元的长度,即每个论元所包含的单词数量,d表示单词嵌入向量的维度,H经过双曲正切函数tanh函数而得到隐藏层状态向量表示矩阵M;公式(6)中,w的转置wT表示权重参数向量;softmax函数将加权的隐藏层状态向量表示矩阵M转化为概率分布,称为每个单词的注意力值;公式(7)中,Argrep是由输出向量进行加权求和计算得到的新的论元图文向量序列表示,α的转置αT作为输出向量的权重。因此,对于论元图文向量序列表示Argrep1,Argrep2,通过上述公式可以获得Arg1和Arg2的包含重要图文信息的新的论元图文向量序列表示:Argrep1',Argrep2'。
(4)建模文本-图像交互组件
通过建模文本-图像交互组件,可以动态学习论元间和论元内部的重要图文信息。文本-图像交互组件利用自注意力机制捕获由两个包含重要图文信息的新的论元图文向量序列表示Argrep1',Argrep2'拼接而成的整个论元图文向量序列表示Argrep'中的重要图文信息,自注意力机制的具体公式如下:
其中,分别表示查询矩阵、键名矩阵和键值矩阵。Q,K和V的初始值都是Argrep',la是Argrep'的长度,dk是Argrep'的维度,其等于单词嵌入向量的维度d。由此,可以得到包含重要文本图像信息和注意权重的用于识别篇章关系的特征向量表示output。
(5)篇章关系预测
按照上一步将得到的用于识别篇章关系的特征向量表示output输入到分类层中,将得到篇章关系概率分布。公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,y是真实关系的one-hot表示,/>是预测关系的表示。损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(10);
其中,yj,分别是第j真实关系的one-hot表示和预测关系的向量表示。
在具体实施过程中,以PDTB数据集为例,通过提前设置各种超参数,见表2;即单词嵌入向量是使用300维的Google News预训练的word2vec[22]。使用Adam优化器来优化损失函数,并通过使用ELMo预训练的300维词嵌入增强的论元向量表示。BiLSTM层数为3,迭代次数为100。
表2模型在实验中的超参数
参数名称 参数值
句子长度 max_length=100
词嵌入维度 embedding_size=3400
初始学习率 lr=0.001
批次大小 num_batches=128
迭代次数 epoch=100
距离判别方法 distance_method=L2
短语个数 Max_phrase_len=5
LSTM的输出大小 input_size=300
LSTM的隐藏层大小 hidden_size=300
LSTM的层数 num_layers=3
为了验证本发明方法的有效性,将本发明方法与当前先进并具有代表性的模型以及四个基本方法进行对比:
对比模型:
·(Lin,Kan,and Ng 2009)使用了两个论元的上下文、词对信息以及论元的内部成分和依赖项分析。
·(Ji and Eisenstein 2015)通过句法分析树计算每个篇章论元的分布式表示。
·(Zhang et al.2015)提出了一种纯神经网络和三个不同的池操作,其在词向量上只有一个简单的卷积层并可以学习浅层的任务表示。
·(Liu and Li 2016)结合注意机制和外部记忆把关注的重点集中在特定的词,这有助于确定篇章关系。
·(Lan et al.2017)设计了一种基于注意力机制的神经网络,其可用于学习具有两个论元的篇章关系表示并且可以利用多任务框架从注释的与未注释语料库中学习不同的知识。
·(Chen et al.2016)提出了一种门控相关网络(GRN),并将词对之间的线性和非线性相互作用结合起来。
·(Lei et al.2017)设计了一种简单的单词交互模型(SWIM)来学习单词对之间的交互信息。
·(Qin,Zhang,and Zhao 2016)采用了上下文感知的字符增强嵌入来解决隐式的篇章关系识别任务。
·(Bai and Zhao 2018)采用了不同粒度的文本表示,包括字符、子字、单词、句子和句子对级别来解决隐式的篇章关系识别任务。
消融模型:
·Baseline本实施例使用3层使用预训练词嵌入的BiLSTM作为基线模型,使用BiISTM分别编码两个篇章关系,然后在拼接两个论元向量表示之后将它们输入到自注意力控制层,最后利用softmax层预测篇章关系。BiLSTM层数设置为3的原因是它可以在多次试验后获得较好的结果。
·+Phrase Images基于Baseline对两个论元和论元相应的短语图像分别进行编码得到论元向量序列表示和短语图像向量表示,将论元向量序列表示和短语图像向量表示依次拼接后依次作为交互层和softmax层的输入进行篇章关系识别。
·+Sentence Images本实施例使用生成的短语和句子图像向量表示,以增强参数表示。
·+ELMo本实施利用预先训练的ELMo向量来丰富论元的表示,最后将它们输入到softmax层来识别话语关系。
目前,篇章分析的评测主要考虑算法的准确度(Accuracy)和F1值两个性能指标。准确度采用公式(11)进行度量。
这里,TruePositive代表本来是正样例,同时分类成正样例的个数;TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
F1值由准确率(Precision)和召回率(Recall)共同体现,采用公式(12)进行度量。
其中,
这里,FalsePositive代表本来是负样例,但被分类成正样例的个数(通常叫误报);FalseNegative代表本来是正样例,但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。
表3不同对比模型在11分类中的准确度(%)
表4不同消融模型在11分类中的准确度(%)
表5不同对比模型在二分类和四分类中的F1(%)
表6不同消融模型在二分类和四分类中的F1(%)
从表3,4,5,6验结果可看出,本发明提出的基于多粒度生成图像增强表示的隐式篇章关系识别方法的有效性。此外,为了验证文本图像向量序列表示的有效性,对不同短语的自注意力权重进行可视化,图2a和图2b分别展示了短语“eat a big pizza”和“go tobed”的自注意力权重可视化结果,每个图文向量表示都伴随着不同深度色块,较暗的部分表示单词对的相关性较高。从图2a中可以看出,Arg1中的短语“eat a big pizza”与Arg1中的短语“go to bed”有较高的关注度,验证了短语“eat a big pizza”与短语“go to bed”是相关的。从图2b可以观察到,Arg1中短语“go to bed”与Arg2中短语“have weirddreams”有较高的关注度,说明了“go to bed”和“have weird dreams”包含较为丰富的语义信息。综合图2a和图2b,对比短语“eat a big pizza”和“go to bed”,短语“go to bed”对Arg2有着较为重要的影响。此外,短语和短语间的相似度和短语与图像向量的相似度有着相同的规律,例如,短语“go to bed”与图像向量Imgp21的相似度要高于短语“eat a bigpizza”,由此认为是本发明引入的图像向量增强了语义信息。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Xu,T.;Zhang,P.;Huang,Q.;Zhang,H.;Gan,Z.;Huang,X.;and He,X.2018.Attngan:Fine-grained text to image generation with attentionalgenerative adversarial networks.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,1316–1324.
[2]Pitler,E.;Louis,A.;and Nenkova,A.2009.Automatic sense predictionfor implicit discourse relations in text.In Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume2,683–691.Association for Computational Linguistics.
[3]Junyi Jessy Li,Marine Carpuat,and Ani Nenkova.2014.Assessing thediscourse factors that influence the quality of machine translation.InProceedings of the 52nd Annual Meeting of the Association for ComputationalLinguistics(ACL)(Volume 2:Short Papers),pages 283–288,Baltimore,Maryland,June.
[4]Zhang,B.;Su,J.;Xiong,D.;Lu,Y.;Duan,H.;and Yao,J.2015.Shallowconvolutional neural network for implicit discourse relation recognition.InProceedings of the 2015Conference on Empirical Methods in Natural LanguageProcessing,2230–2235.
[5]Liu,Y.;Li,S.;Zhang,X.;and Sui,Z.2016.Implicit discourse relationclassification via multi-task neural networks.In Thirtieth AAAI Conference onArtificial Intelligence.
[6]Liu Y,Li S.Recognizing Implicit Discourse Relations via RepeatedReading:Neural Networks with Multi-Level Attention[J].2016.
[7]Lan,M.;Wang,J.;Wu,Y.;Niu,Z.-Y.;and Wang,H.2017.Multi-taskattention-based neural network sfor implicit discourse relationshiprepresentation and identification.In Proceedings of the 2017 Conference onEmpirical Methods in Natural Language Processing,1299–1308.
[8]S,Schenk N,Chiarcos C.A Recurrent Neural Model withAttention for the Recognition of Chinese Implicit Discourse Relations[J].2017.
[9]Chen,J.;Zhang,Q.;Liu,P.;Qiu,X.;and Huang,X.2016.Implicit discourserelation detection via a deep architecture with gated relevance network.InProceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers),1726–1735.
[10]Lei,W.;Wang,X.;Liu,M.;Ilievski,I.;He,X.;and Kan,M.-Y.2017.Swim:Asimple word interaction model for implicit discourse relation recognition.InIJCAI,4026–4032.
[11]Guo,F.;He,R.;Jin,D.;Dang,J.;Wang,L.;and Li,X.2018.Implicitdiscourse relation recognition using neural tensor network with interactiveattention and sparse learning.In Proceedings of the 27th InternationalConference on Computational Linguistics,547–558.
[12]Qin,L.;Zhang,Z.;and Zhao,H.2016.Implicit discourse relationrecognition with context-aware character-enhanced embeddings.In Proceedingsof COLING 2016,the 26th International Conference on ComputationalLinguistics:Technical Papers,1914–1924.
[13]Dai Z,Huang R.Improving Implicit Discourse RelationClassification by Modeling Inter-dependencies of Discourse Units in aParagraph[J].2018.
[14]Bai,H.,and Zhao,H.2018.Deep enhanced representation for implicitdiscourse relation recognition.arXiv preprint arXiv:1807.05154.
[15]Leutner,D.;Leopold,C.;and Sumfleth,E.2009.Cognitive load andscience text comprehension:Effects of drawing and mentally imagining textcontent.Computers in Human Behavior 25(2):284–289.
[16]Mason,L.;Pluchino,P.;and Tornatora,M.C.2013.Effects of picturelabeling on science text processing and learning:Evidence from eyemovements.Reading Research Quarterly 48(2):199–214.
[17]Mao,J.;Xu,W.;Yang,Y.;Wang,J.;Huang,Z.;and Yuille,A.2014.Deepcaptioning with multimodal recurrent neural networks(m-rnn).arXiv preprintarXiv:1412.6632.
[18]Pan,Y.;Mei,T.;Yao,T.;Li,H.;and Rui,Y.2016.Jointly modelingembedding and translation to bridge video and language.In Proceedings of theIEEE conference on computer vision and pattern recognition,4594–4602.
[19]Jin,Z.;Cao,J.;Guo,H.;Zhang,Y.;and Luo,J.2017.Multimodal fusionwith recurrent neural networks for rumor detection on microblogs.InProceedings of the 25th ACM international conference on Multimedia,795–816.ACM.
[20]Lin,Z.;Kan,M.-Y.;and Ng,H.T.2009.Recognizing implicit discourserelations in the penn discourse treebank.In Proceedings of the 2009Conferenceon Empirical Methods in Natural Language Processing,343–351.
[21]Ji,Y.,and Eisenstein,J.2015.One vector is not enough:Entity-augmented distributed semantics for discourse relations.Transactions of theAssociation for Computational Linguistics 3:329–344.
[22]Mikolov,T.;Sutskever,I.;Chen,K.;Corrado,G.S.;and Dean,J.2013.Distributed representations of words and phrases and theircompositionality.In Advances in neural information processing systems,3111–3119.
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (4)

1.基于多粒度生成图像增强表示的隐式篇章关系识别方法,其特征在于,包括以下步骤:
(101)构建融合层:融合层内包括词嵌入模块、图像生成模块和文本-图像融合模块:1)词嵌入模块通过在嵌入空间中将篇章论元Arg1,Arg2的词向量序列表示逐一映射成两个篇章论元的向量表示,以捕捉篇章论元的上下文;2)图像生成模块通过文本到图像的生成神经网络生成篇章论元对应的图像,包括句子级别的论元图像生成和短语级别的论元图像生成,然后通过卷积神经网络CNN提取图像的特征,即图像的向量表示;3)文本-图像融合模块将篇章论元的向量表示和篇章论元对应的短语、句子图像的向量表示依次拼接后得到融合图文信息的篇章论元表示;
具体包括:1)词嵌入模块,给定论元对 其中l1,l2分别是论元Arg1和Arg2的单词个数,/>分别是Arg1,Arg2中第i个和第j单词;将每个单词/>在预先训练的单词嵌入上进行查表操作获取对应的低维分布式向量表示后分别组成词向量序列表示即可获得篇章论元Arg1和Arg2的论元向量序列表示:Textrep1,Textrep2;2)图像生成模块,选择具有注意力生成对抗网络的细粒度文本到图像生成模型AttnGAN实现文本到图像的生成;AttnGAN的输入是论元的向量序列表示,输出的结果经过卷积神经网络CNN得到图像向量表示;具体来说,将两个论元和它们的短语分别输入AttnGAN,然后获得由卷积神经网络CNN产生的句子和短语图像向量表示:/>和/>其中分别表示Arg1中第k个短语的图像向量表示和Arg2中第l个短语的图像向量表示,pn,pm分别表示Arg1和Arg2中短语的个数,/>分别表示Arg1和Arg2的句子级图像向量表示;3)文本-图像融合模块,在获得论元向量表示Textrep1,Textrep2以及论元,论元短语的图像向量表示/>和/>后,根据图像向量表示生成的时间顺序依次与论元向量表示进行拼接得到融合图文信息的篇章论元表示:
(102)构建注意力控制层:通过双向长短期记忆神经网络BiLSTM学习包含图文信息的篇章论元的语义信息,并利用注意力机制捕获篇章论元中重要的词汇信息,将捕获到的重要词汇信息融入篇章论元的表示学习中,以加深对篇章论元的语义理解,从而获取融合重要图文信息的篇章论元表示;
(103)构建基于自注意力机制的图文交互层:在不同论元中的单词对判断两个论元间的篇章关系都有不同的重要信息,不同论元生成的图像信息也有着不同的交互信息;因此将两个来自步骤(102)的融合重要图文信息的篇章论元表示拼接成一个整体后输入到基于自注意力机制Self-attention mechanism的图文交互层能够捕获融合文本、图像的交互信息,从而捕获每个单词、图像内在的语义信息,以生成语义丰富的用于识别篇章关系的特征向量表示;
(104)构建篇章关系识别层:利用步骤(103)生成的用于识别篇章关系的特征向量表示对隐式篇章关系进行识别。
2.根据权利要求1所述基于多粒度生成图像增强表示的隐式篇章关系识别方法,其特征在于,步骤(102)具体包括:采用BiLSTM进行序列编码,结合历史信息和未来信息以增强图文向量的语义丰富性;具体来说,对于第t个时间步,LSTM读取单词xt作为输入,ht作为输出,具体公式如下:
ht=ot⊙tanh(ct) (4)
其中,it,ft,ot,ct,ht分别表示输入门、遗忘门、输出门、存储单元和隐藏状态;TA,b是依赖于网络参数的映射变换矩阵;ct-1表示上一时刻(t-1)的存储单元状态,是当前时刻存储单元到即时状态,ht-1表示t-1时刻的隐藏层状态;σ表示sigmoid函数,双曲正切函数tanh是在t-1时刻作用于ht-1和TA,b上的激活函数,⊙表示元素乘积;
利用双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)对论元图文向量序列表示Argrep1,Argrep2进行建模;BiLSTM通过正向和反向两个单独的LSTM保存历史和未来信息;得到在序列的每个时间步长t处的两个表示和/>后将它们拼接在一起作为句子向量表示/>最后采用注意力机制捕获重要的图文信息:
M=tanh(H) (5)
α=softmax(wTM) (6)
Argrep=HαT (7)
公式(5)中,H是由输出向量[h1,h2,...,hn]组成的矩阵,其中n是论元的长度,即每个论元所包含的单词数量,d表示单词嵌入向量的维度,H经过双曲正切函数tanh函数而得到隐藏层状态向量表示矩阵M;公式(6)中,w的转置wT表示权重参数向量;softmax函数将加权的隐藏层状态向量表示矩阵M转化为概率分布,称为每个单词的注意力值;公式(7)中,Argrep是由输出向量进行加权求和计算得到的新的论元图文向量序列表示,α的转置αT作为输出向量的权重;因此,对于论元图文向量序列表示Argrep1,Argrep2,通过上述公式可以获得Arg1和Arg2的包含重要图文信息的新的论元图文向量序列表示:Argrep1',Argrep2'。
3.根据权利要求1所述基于多粒度生成图像增强表示的隐式篇章关系识别方法,其特征在于,步骤(103)具体包括:
为了从整体上捕获两个包含重要图文信息的新的论元图文向量序列表示Argrep1',Argrep2'的文本-图像交互信息,首先通过拼接Argrep1',Argrep2'获得整个论元图文向量序列表示Argrep',然后使用自注意力机制捕获重要的图文向量序列表示单元,这里自注意力定义为:
其中,分别表示查询矩阵、键名矩阵和键值矩阵;Q,K和V的初始值都是Argrep',la是Argrep'的长度,dk是Argrep'的维度,其等于单词嵌入向量的维度d;由此得到包含重要文本图像信息和注意权重的用于识别篇章关系的特征向量表示output。
4.根据权利要求1所述基于多粒度生成图像增强表示的隐式篇章关系识别方法,其特征在于,步骤(104)具体包括:
在获得用于识别篇章关系的特征向量表示output后,使用softmax函数对output进行归一化,即可得到两个论元间的篇章关系;将output输入到分类层中,将得到篇章关系概率分布;公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,y是真实关系的one-hot表示,/>是预测关系的表示;损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(10);
其中,yj,分别是第j真实关系的one-hot表示和预测关系的向量表示。
CN202010188895.1A 2020-03-17 2020-03-17 基于多粒度生成图像增强表示的隐式篇章关系识别方法 Active CN111488739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010188895.1A CN111488739B (zh) 2020-03-17 2020-03-17 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010188895.1A CN111488739B (zh) 2020-03-17 2020-03-17 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Publications (2)

Publication Number Publication Date
CN111488739A CN111488739A (zh) 2020-08-04
CN111488739B true CN111488739B (zh) 2023-07-18

Family

ID=71810802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010188895.1A Active CN111488739B (zh) 2020-03-17 2020-03-17 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Country Status (1)

Country Link
CN (1) CN111488739B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931664B (zh) * 2020-08-12 2024-01-12 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN112069804B (zh) * 2020-09-08 2023-12-19 天津大学 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
CN112348911B (zh) * 2020-10-28 2023-04-18 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112560652B (zh) * 2020-12-09 2024-03-05 第四范式(北京)技术有限公司 文本识别方法和系统以及文本识别模型训练方法和系统
CN112528642B (zh) * 2020-12-15 2023-07-18 华中师范大学 一种隐式篇章关系自动识别方法及系统
CN112699662B (zh) * 2020-12-31 2022-08-16 太原理工大学 一种基于文本结构算法的虚假信息早期检测方法
CN112836048A (zh) * 2021-01-27 2021-05-25 天津大学 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112926569B (zh) * 2021-03-16 2022-10-18 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN112949553A (zh) * 2021-03-22 2021-06-11 陈懋宁 基于自注意力级联生成对抗网络的人脸图像修复方法
CN113343705B (zh) * 2021-04-26 2022-07-05 山东师范大学 一种基于文本语义的细节保持图像生成方法及系统
CN113254694B (zh) * 2021-05-21 2022-07-15 中国科学技术大学 一种文本转图像方法和装置
CN113360643A (zh) * 2021-05-27 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于短文本分类的电子病历数据质量评价方法
CN114676705B (zh) * 2021-06-17 2024-10-15 腾讯云计算(北京)有限责任公司 一种对话关系处理方法、计算机及可读存储介质
CN113630384B (zh) * 2021-07-09 2022-10-14 中国科学院信息工程研究所 一种基于NetFlow数据的特定加密流量识别方法及系统
CN113590821B (zh) * 2021-07-26 2023-04-14 北方工业大学 一种隐含语篇关系的分类方法
CN114548067B (zh) * 2022-01-14 2023-04-18 哈尔滨工业大学(深圳) 一种基于模板的多模态命名实体识别方法及相关设备
CN114626441A (zh) * 2022-02-23 2022-06-14 苏州大学 基于视觉对比注意力的隐式多模态匹配方法及系统
CN115482665B (zh) * 2022-09-13 2023-09-15 重庆邮电大学 一种知识与数据协同驱动的多粒度交通事故预测方法及装置
CN115797495B (zh) * 2023-02-07 2023-04-25 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110347831A (zh) * 2019-06-28 2019-10-18 西安理工大学 基于自注意力机制的情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN110347831A (zh) * 2019-06-28 2019-10-18 西安理工大学 基于自注意力机制的情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BiGRU和注意力机制的多标签文本分类模型;饶竹一等;《现代计算机》(第01期);全文 *
基于多头注意力的双向LSTM情感分析模型研究;林原等;《山西大学学报(自然科学版)》(第01期);全文 *

Also Published As

Publication number Publication date
CN111488739A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111488739B (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
Bai et al. A survey on automatic image caption generation
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Gao et al. Video captioning with attention-based LSTM and semantic consistency
CN108733792B (zh) 一种实体关系抽取方法
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
Guo et al. Working memory-driven neural networks with a novel knowledge enhancement paradigm for implicit discourse relation recognition
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN112836048A (zh) 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法
Guo et al. Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
Chaudhary et al. Signnet ii: A transformer-based two-way sign language translation model
Yan et al. Implicit emotional tendency recognition based on disconnected recurrent neural networks
Boukdir et al. Character-level Arabic text generation from sign language video using encoder–decoder model
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法
Mahmoud et al. Arabic semantic textual similarity identification based on convolutional gated recurrent units
Zhou et al. Multimodal embedding for lifelog retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant