CN111428525B - 隐式篇章关系识别方法、系统及可读存储介质 - Google Patents

隐式篇章关系识别方法、系统及可读存储介质 Download PDF

Info

Publication number
CN111428525B
CN111428525B CN202010539890.9A CN202010539890A CN111428525B CN 111428525 B CN111428525 B CN 111428525B CN 202010539890 A CN202010539890 A CN 202010539890A CN 111428525 B CN111428525 B CN 111428525B
Authority
CN
China
Prior art keywords
level
relationship
vector
relation
local semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010539890.9A
Other languages
English (en)
Other versions
CN111428525A (zh
Inventor
邬昌兴
俞亮
胡超文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202010539890.9A priority Critical patent/CN111428525B/zh
Publication of CN111428525A publication Critical patent/CN111428525A/zh
Application granted granted Critical
Publication of CN111428525B publication Critical patent/CN111428525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种隐式篇章关系识别方法、系统及可读存储介质,所述方法包括如下步骤:接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系。本发明提出的隐式篇章关系识别方法,能灵活地在多级篇章关系之间实现信息共享,并实现每一级篇章关系预测结果之间的依赖。

Description

隐式篇章关系识别方法、系统及可读存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种隐式篇章关系识别方法、系统及可读存储介质。
背景技术
随着科技的不断发展以及技术的不断提升,近年来,大部分融入篇章信息的自然语言处理系统的性能也得到了较为显著的提高。具体的包括命名实体识别、抽取式文本摘要以及机器翻译等。目前,越来越多的研究者都在探索如何建模并利用篇章信息。
具体的,篇章是指由一系列结构衔接、语义连贯的句子所组成的语言单位。它们之间遵从一定的语义关系或层次结构,用于阐述某一方面的问题或场景。篇章结构分析在于如何获取某段文本中句子之间的语义关系和层次结构。其中,句间语义关系识别属于篇章结构分析中的核心子任务之一,同时也是性能瓶颈所在。对于句间语义关系,一般包括显式因果关系以及隐式因果关系。以两个具体的语句为例进行说明:【例1】句子1 :[西环线通车后货运列车可以不用经过南昌城区,] 句子2:[从而][解决南昌站的客货相互制约运能的问题。],此时即为显式因果关系。【例2】句子1:[南昌新建的一座国际集装箱码头日前交付使用,]句子2:[进一步改善了江西现有的对外通道状况。],此时即为隐式因果关系。
句间语义关系识别,通常被称作篇章关系识别(Discourse relationrecognition),旨在自动判断两个句子或者子句之间的语义关系。例如,转折关系以及因果关系等。如上所述,根据两个句子之间是否存在连接词,可进一步分为显式篇章关系识别以及隐式篇章关系识别。如例1所示为带有连接词“从而”的显式篇章关系实例,例2为省略了连接词的隐式篇章关系实例。显式篇章关系识别只需针对少数存在歧义的连接词进行消歧,性能已经达到了实用的要求。相对而言,由于缺少连接词,隐式篇章关系识别需要先建模两个句子的语义,然后推理出它们之间的关系。目前,隐式篇章关系识别的准确率还比较低,离实用尚有一定的差距。
针对多级隐式篇章关系识别,由于多个级别的篇章关系所代表的语义关系之间具有层次性,且篇章关系预测结果之间具有一定的依赖关系。然而,现有技术中,不仅没有有效地利用语义的层次性,也没有利用预测结果之间的依赖关系,从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。
发明内容
鉴于上述状况,有必要解决现有技术中,由于没有有效地利用语义的层次性,以及预测结果之间的依赖关系,从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。
本发明实施例提供了一种隐式篇章关系识别方法,其中,所述方法包括如下步骤:
步骤一:接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;
步骤二:将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
步骤三:将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系。
本发明提出的隐式篇章关系识别方法,解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量,将全局语义关系向量作为GRU网络的第零个隐状态,然后将上一级对应的隐状态以及所有的局部语义关系向量,计算得到当前级别篇章关系的局部语义关系信息,最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接,最终计算得到当前级别的隐式篇章关系。在本发明中,基于门机制有选择地共享全局语义关系信息,并基于注意力机制提取特定于当前级别任务的局部语义关系信息,不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的,也满足了不同级别的任务需要不同粒度的信息。与此同时,通过序列生成的方式来达到多级隐式篇章关系识别,可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。
所述隐式篇章关系识别方法,其中,在所述步骤二中,所述计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。
所述隐式篇章关系识别方法,其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的方法对应的公式表达式为:
Figure 84912DEST_PATH_IMAGE001
其中,
Figure 205314DEST_PATH_IMAGE002
表示根据注意力机制计算得到的第
Figure 640844DEST_PATH_IMAGE003
个权重,
Figure 567211DEST_PATH_IMAGE004
表示第
Figure 522529DEST_PATH_IMAGE005
级篇章关系的隐状态,
Figure 876150DEST_PATH_IMAGE006
为注意力机制参数,
Figure 300440DEST_PATH_IMAGE007
表示第
Figure 702603DEST_PATH_IMAGE003
个局部语义关系向量,
Figure 902640DEST_PATH_IMAGE008
为局部语义关系向量的个数;
Figure 286217DEST_PATH_IMAGE009
Figure 571705DEST_PATH_IMAGE010
表示根据注意力机制计算得到的归一化后的权重分布;
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
Figure 715241DEST_PATH_IMAGE011
其中,
Figure 213129DEST_PATH_IMAGE012
表示第
Figure 174132DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息,
Figure 556703DEST_PATH_IMAGE014
表示归一化的权重分布
Figure 362985DEST_PATH_IMAGE010
的第
Figure 458986DEST_PATH_IMAGE003
个权重。
所述隐式篇章关系识别方法,其中,在所述步骤三中,输入至所述当前GRU单元的数据表达式为:
Figure 200677DEST_PATH_IMAGE015
其中,
Figure 195177DEST_PATH_IMAGE016
为当前GRU单元的输入,
Figure 431249DEST_PATH_IMAGE017
为所预测的第
Figure 132489DEST_PATH_IMAGE005
级篇章关系的向量表示,
Figure 169715DEST_PATH_IMAGE012
表示第
Figure 572883DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息。
所述隐式篇章关系识别方法,其中,在所述步骤三中,还存在如下关系式:
Figure 596334DEST_PATH_IMAGE018
Figure 899883DEST_PATH_IMAGE019
Figure 108010DEST_PATH_IMAGE020
Figure 952470DEST_PATH_IMAGE021
其中,
Figure 825617DEST_PATH_IMAGE022
表示第
Figure 829345DEST_PATH_IMAGE013
个重置门,
Figure 349319DEST_PATH_IMAGE023
表示第
Figure 805708DEST_PATH_IMAGE013
个更新门,
Figure 921694DEST_PATH_IMAGE024
均为GRU单元的矩阵参数,
Figure 514349DEST_PATH_IMAGE025
表示当前时刻的状态信息,
Figure 1962DEST_PATH_IMAGE026
表示第
Figure 70281DEST_PATH_IMAGE013
级篇章关系的隐状态,
Figure 629439DEST_PATH_IMAGE027
所述隐式篇章关系识别方法,其中,所述方法还包括如下步骤:
根据第j级篇章关系的隐状态进行篇章关系分类,以得到第j级篇章关系预测结果;
对应的表达式为:
Figure 217546DEST_PATH_IMAGE028
Figure 672798DEST_PATH_IMAGE029
表示第
Figure 726948DEST_PATH_IMAGE013
级篇章关系的预测结果,MLP为多层感知机,softmax为用于计算概率的归一化指数函数。
所述隐式篇章关系识别方法,其中,在所述步骤一之前,所述方法还包括:
计算所输入的第一语句与第二语句之间的词对相关性矩阵,根据所述词对相关性矩阵,从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵;
根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征;
根据所述第一局部语义关系特征以及所述第二局部语义关系特征,提取得到所述全局语义关系向量。
所述隐式篇章关系识别方法,其中,所述词对相关性矩阵、所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系式:
Figure 824217DEST_PATH_IMAGE030
Figure 532410DEST_PATH_IMAGE031
Figure 345514DEST_PATH_IMAGE032
其中,
Figure 263792DEST_PATH_IMAGE033
为所述词对相关性矩阵,
Figure 40118DEST_PATH_IMAGE034
为所述第一权重矩阵,
Figure 196293DEST_PATH_IMAGE035
为所述第二权重矩阵,
Figure 947342DEST_PATH_IMAGE036
为需要训练的参数矩阵,
Figure 962703DEST_PATH_IMAGE037
为输入的第一语句,
Figure 401774DEST_PATH_IMAGE038
为输入的第二语句;
所述第一局部语义关系特征、所述第二局部语义关系特征与所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系:
Figure 68248DEST_PATH_IMAGE039
Figure 567362DEST_PATH_IMAGE040
Figure 70019DEST_PATH_IMAGE041
Figure 732688DEST_PATH_IMAGE042
其中,
Figure 129034DEST_PATH_IMAGE043
为第一加权求和矩阵,
Figure 674416DEST_PATH_IMAGE044
为第二加权求和矩阵,
Figure 523424DEST_PATH_IMAGE045
为所述第一局部语义关系特征,
Figure 428932DEST_PATH_IMAGE046
为所述第二局部语义关系特征,“;”表示矩阵或向量的拼接操作,
Figure 945364DEST_PATH_IMAGE047
Figure 458385DEST_PATH_IMAGE048
为多层非线性前馈神经网络;
所述全局语义关系向量与所述第一局部语义关系特征以及所述第二局部语义关系特征之间存在如下关系:
Figure 686366DEST_PATH_IMAGE049
其中,
Figure 5352DEST_PATH_IMAGE050
为所述全局语义关系向量。
本发明还提出一种隐式篇章关系识别系统,包括相互之间进行数据传输的编码器以及解码器,其中,所述解码器包括:
数据接收模块,用于接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;
第一处理模块,用于将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
第二处理模块,用于将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系,所述当前级别包括第一级别、第二级别以及第三级别;
其中,若所述当前级别为第一级别,则使用第零个隐状态作为对应的上一级别的隐状态,使用一个空向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第二级别,则使用第一级别的隐状态作为对应的上一级别的隐状态,使用第一级别的篇章关系向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第三级别,则使用第二级别的隐状态作为对应的上一级别的隐状态,使用第二级别的篇章关系向量作为对应的上一级别的篇章关系向量;
所述第一处理模块用于:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息;
其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的公式表达式为:
Figure 251656DEST_PATH_IMAGE001
其中,
Figure 263475DEST_PATH_IMAGE002
表示根据注意力机制计算得到的第
Figure 211708DEST_PATH_IMAGE003
个权重,
Figure 272068DEST_PATH_IMAGE004
表示第
Figure 497513DEST_PATH_IMAGE005
级篇章关系的隐状态,
Figure 303402DEST_PATH_IMAGE006
为注意力机制参数,
Figure 614297DEST_PATH_IMAGE007
表示第
Figure 416031DEST_PATH_IMAGE003
个局部语义关系向量,
Figure 495983DEST_PATH_IMAGE008
为局部语义关系向量的个数;
Figure 36554DEST_PATH_IMAGE009
Figure 710112DEST_PATH_IMAGE010
表示根据注意力机制计算得到的归一化后的权重分布;
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
Figure 174592DEST_PATH_IMAGE011
其中,
Figure 735148DEST_PATH_IMAGE012
表示第
Figure 525250DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息,
Figure 686104DEST_PATH_IMAGE014
表示归一化的权重分布
Figure 954274DEST_PATH_IMAGE010
的第
Figure 930189DEST_PATH_IMAGE003
个权重。
本发明还提出一种可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的隐式篇章关系识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的现有技术中汉语篇章关系层次结构示意图;
图2为本发明第一实施例提出的隐式篇章关系识别方法的流程图;
图3为本发明第一实施例提出的多级隐式篇章关系识别模型的结构示意图;
图4为本发明第二实施例提出的编码器的编码方法的流程图;
图5为本发明第四实施例提出的隐式篇章关系识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中,通常把句子间的篇章关系定义为一种层次结构。如图1所示,在汉语CDTB(汉语篇章结构树库,Chinese Discourse TreeBank)语料中,把篇章关系分为两个层级。其中,第一级包括4大类(因果类、并列类、转折类和解说类);第二级包括17小类。另外,篇章连接词(因为、如果等)可以看作是第三级篇章关系。
从语义的角度来看,第二级篇章关系可以看作是第一级关系的进一步细化,而连接词则是第二级篇章关系的进一步细化。例如,第一级“因果类”关系可进一步细化为“因果关系、推断关系、假设关系、目的关系、条件关系和背景关系”。因此,隐式篇章关系识别通常包括多级分类任务:第一级篇章关系分类、第二级篇章关系分类和连接词分类,上述可统称为多级隐式篇章关系识别。
由于多个级别的篇章关系所代表的语义关系具有层次性。然而现有技术中,并没有有效地利用这种语义的层次性,从而达到在多个级别的隐式篇章关系识别任务之间实现信息共享、相互促进的目的。另一方面,由于多个级别的篇章关系预测结果之间具有一定的依赖关系,然而现有方法中,基于不同的分类模型单独预测每个级别的隐式篇章关系,没有利用它们之间的依赖关系。例如,如果第一级篇章关系的预测结果是“因果”关系,那么第二级篇章关系预测为“并列”关系的可能性就很小,连接词预测为“并且”的可能性也很小。
实施例一:
为了解决上述技术问题,本发明提出一种隐式篇章关系识别方法,请参阅图2与图3,对于本发明第一实施例提出的隐式篇章关系识别方法,该方法包括如下步骤:
S101,接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态。
在本发明中,解码器将编码器所输出的全局语义关系向量
Figure 766558DEST_PATH_IMAGE050
和局部语义关系向量
Figure 273763DEST_PATH_IMAGE051
作为输入,生成一个多级隐式篇章关系序列。
在本步骤中,将全局语义关系向量
Figure 968793DEST_PATH_IMAGE050
作为GRU网络的初始状态
Figure 143422DEST_PATH_IMAGE052
(第零个隐状态)。可以理解的,在本步骤中,相当于将人们第一次阅读的两个句子获得的全局信息作为输入。
S102,将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息。
在本步骤中,计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤:
S1021,根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重。
Figure 885113DEST_PATH_IMAGE001
其中,
Figure 145193DEST_PATH_IMAGE002
表示根据注意力机制计算得到的第
Figure 879800DEST_PATH_IMAGE003
个权重,
Figure 908936DEST_PATH_IMAGE004
表示第
Figure 555949DEST_PATH_IMAGE005
级篇章关系的隐状态,
Figure 303325DEST_PATH_IMAGE006
为注意力机制参数,
Figure 343088DEST_PATH_IMAGE007
表示第
Figure 226730DEST_PATH_IMAGE003
个局部语义关系向量,
Figure 372541DEST_PATH_IMAGE008
为局部语义关系向量的个数。
Figure 466267DEST_PATH_IMAGE009
Figure 152464DEST_PATH_IMAGE010
表示根据注意力机制计算得到的归一化后的权重分布。
S1022,根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。
具体的,步骤S1022所对应的公式表达式为:
Figure 31558DEST_PATH_IMAGE011
其中,
Figure 830493DEST_PATH_IMAGE012
表示第
Figure 286882DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息,
Figure 917715DEST_PATH_IMAGE014
表示归一化的权重分布
Figure 510370DEST_PATH_IMAGE010
的第
Figure 450513DEST_PATH_IMAGE003
个权重。在本发明中,
Figure 394199DEST_PATH_IMAGE053
S103,将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系。
如上所述,在计算得到了当前级别(在本实施例中为第j级别)篇章关系对应的局部语义关系信息之后,结合上一级别的篇章关系向量一并输入到当前GRU单元中。在此需要说明的是,若上一级别的篇章关系为第零级别,则对应的篇章关系向量为空。
在本步骤中,输入至所述当前GRU单元的数据表达式为:
Figure 563143DEST_PATH_IMAGE015
其中,
Figure 698720DEST_PATH_IMAGE016
为当前GRU单元的输入,
Figure 419552DEST_PATH_IMAGE017
为所预测的第
Figure 709588DEST_PATH_IMAGE005
级篇章关系的向量表示,
Figure 682223DEST_PATH_IMAGE012
表示第
Figure 249470DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息。
进一步的,在本步骤中,还存在如下关系式:
Figure 29951DEST_PATH_IMAGE018
Figure 948229DEST_PATH_IMAGE019
Figure 458976DEST_PATH_IMAGE020
Figure 146309DEST_PATH_IMAGE021
其中,
Figure 333577DEST_PATH_IMAGE022
表示第
Figure 473571DEST_PATH_IMAGE013
个重置门,
Figure 53588DEST_PATH_IMAGE023
表示第
Figure 18264DEST_PATH_IMAGE013
个更新门,
Figure 517378DEST_PATH_IMAGE024
均为GRU单元的矩阵参数,
Figure 20035DEST_PATH_IMAGE025
表示当前时刻的状态信息,
Figure 731639DEST_PATH_IMAGE026
表示第
Figure 518198DEST_PATH_IMAGE013
级篇章关系的隐状态,
Figure 188214DEST_PATH_IMAGE027
在此需要说明的是,重置门用于控制忽略前一时刻的隐状态
Figure 974905DEST_PATH_IMAGE004
的程度,重置门的值越小,说明忽略得越多。更新门用于控制当前时刻的状态信息
Figure 214885DEST_PATH_IMAGE025
被更新到
Figure 731317DEST_PATH_IMAGE004
中的程度。
此外,从本步骤中的相关公式可以看出:(1)解码器所接收到的编码器所输出的全局语义关系向量
Figure 182021DEST_PATH_IMAGE050
(也即为
Figure 705275DEST_PATH_IMAGE052
),基于门控机制有选择性地对各级别的隐式篇章关系识别任务之间进行共享。(2)当前GRU单元的输出
Figure 289840DEST_PATH_IMAGE026
融合了三部分信息:上一级别的篇章关系的隐状态
Figure 270566DEST_PATH_IMAGE004
;局部语义关系信息
Figure 282384DEST_PATH_IMAGE012
,以及上一级篇章关系预测结果
Figure 732082DEST_PATH_IMAGE017
进一步的,再利用当前级别(第j级)篇章关系的隐状态进行篇章关系分类,以得到第j级篇章关系预测结果。
具体的,其所对应的表达式为:
Figure 120338DEST_PATH_IMAGE028
Figure 221150DEST_PATH_IMAGE029
表示第j级篇章关系的预测结果,MLP为多层感知机,softmax为用于计算概率的归一化指数函数。
在本发明中,第一次执行上述的步骤S102以及步骤S103,可得到第一级隐式篇章关系的预测结果
Figure 403869DEST_PATH_IMAGE054
;第二次执行上述的步骤S102以及步骤S103,可得到第二级隐式篇章关系的预测结果
Figure 104978DEST_PATH_IMAGE055
;第三次执行上述的步骤S102以及步骤S103,可得到连接词的预测结果
Figure 31346DEST_PATH_IMAGE056
,也即生成了一个隐式篇章关系序列
Figure 986663DEST_PATH_IMAGE057
。需要说明的是,为了简洁,图3中只画出了第二次执行上述步骤S102以及步骤S103推导第二级关系的过程,而省略了推导第一级关系和第三级关系的过程。
作为补充的,本发明提出的基于序列生成的多级隐式篇章关系识别模型,可使用随机梯度下降算法端到端进行训练。
例如,给定一个训练实例,使用交叉熵作为每一级隐式篇章分类关系的代价函数,如以下公式所示:
Figure 605863DEST_PATH_IMAGE058
Figure 27224DEST_PATH_IMAGE059
Figure 491704DEST_PATH_IMAGE060
其中,
Figure 567107DEST_PATH_IMAGE061
均为代价函数,
Figure 357208DEST_PATH_IMAGE062
表示隐式篇章关系训练实例的正确标签分布的one-hot编码,
Figure 298488DEST_PATH_IMAGE063
Figure 707604DEST_PATH_IMAGE064
以及
Figure 762148DEST_PATH_IMAGE065
表示对应级别的预测结果。
给定M个训练实例,模型的训练目标是最小化三个分类代价函数的线性和,具体的公式可表示为:
Figure 83670DEST_PATH_IMAGE066
其中,
Figure 590875DEST_PATH_IMAGE067
为第m个训练实例对应的代价函数,
Figure 538102DEST_PATH_IMAGE068
为每一级分类任务对应的权重,整个参数集合
Figure 447152DEST_PATH_IMAGE069
包括编码层的参数和解码层的参数。
本发明提出的隐式篇章关系识别方法,解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量,将全局语义关系向量作为GRU网络的第零个隐状态,然后将上一级对应的隐状态以及所有的局部语义关系向量,计算得到当前级别篇章关系的局部语义关系信息,最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接,最终计算得到当前级别的隐式篇章关系。
在本发明中,基于门机制有选择地共享全局语义关系信息,并基于注意力机制提取特定于当前级别任务的局部语义关系信息,不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的,也满足了不同级别的任务需要不同粒度的信息。与此同时,通过序列生成的方式来达到多级隐式篇章关系识别,可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。
实施例二:
可以理解的,解码器在接收编码器所发送的全局语义关系向量之前,编码器需要先对所输入的语句进行编码处理。在本实施例中,重点介绍一种基于基于Bi-LSTM(双向长短时记忆网络)和双向注意力机制的编码器。
在本实施例中,请参阅图4,具体的编码规则包括如下步骤:
S201,计算所输入的第一语句与第二语句之间的词对相关性矩阵,根据所述词对相关性矩阵,从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵。
在此需要指出的是,Bi-LSTM(双向长短时记忆网络)是一种常用于学习句子语义表示的神经网络结构,其能够把上下文信息编码到词的向量表示中。具体的,如下所示:
Figure 703690DEST_PATH_IMAGE070
Figure 698191DEST_PATH_IMAGE071
其中,
Figure 449109DEST_PATH_IMAGE072
Figure 478245DEST_PATH_IMAGE073
分别用于第一语句以及第二语句,矩阵
Figure 935378DEST_PATH_IMAGE037
与矩阵
Figure 558120DEST_PATH_IMAGE038
为融合了上下信息的第一语句与第二语句中的词的表示。这一部分用作于编码器中的输入层。
在实际应用中,双向注意力机制(Bi-Attention)在很多NLP任务上被证明是一种非常有效的方式,常用于捕获句子之间的交互信息。例如自然语言推理、问答系统以及句子匹配等任务。具体的,以
Figure 971784DEST_PATH_IMAGE037
Figure 980060DEST_PATH_IMAGE038
作为输入,双向注意力模块首先计算第一语句与第二语句之间的词对相关性矩阵
Figure 188188DEST_PATH_IMAGE033
,然后分别从行和列两个方向进行归一化得出权重矩阵
Figure 32647DEST_PATH_IMAGE034
Figure 250002DEST_PATH_IMAGE035
,具体如以下公式所示:
Figure 614249DEST_PATH_IMAGE030
Figure 993278DEST_PATH_IMAGE031
Figure 325033DEST_PATH_IMAGE032
其中,
Figure 80500DEST_PATH_IMAGE033
为所述词对相关性矩阵,
Figure 63368DEST_PATH_IMAGE034
为所述第一权重矩阵,
Figure 878877DEST_PATH_IMAGE035
为所述第二权重矩阵,
Figure 432350DEST_PATH_IMAGE036
为需要训练的参数矩阵,
Figure 991507DEST_PATH_IMAGE037
为输入的第一语句,
Figure 327417DEST_PATH_IMAGE038
为输入的第二语句。在此需要补充说明的是,
Figure 313827DEST_PATH_IMAGE034
中的第k行可以看作第一语句中第k个词与第二语句中每个词对应的权重(相关性越高、权重越大),
Figure 620175DEST_PATH_IMAGE035
中的每一行也具有类似的含义。
S202,根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征。
在本步骤中,基于上述的第一权重矩阵以及第二权重矩阵计算局部语义关系特征,如以下公式所示:
Figure 717444DEST_PATH_IMAGE039
Figure 409325DEST_PATH_IMAGE040
Figure 566637DEST_PATH_IMAGE041
Figure 94702DEST_PATH_IMAGE042
其中,
Figure 995661DEST_PATH_IMAGE043
为第一加权求和矩阵,
Figure 309093DEST_PATH_IMAGE044
为第二加权求和矩阵,
Figure 637307DEST_PATH_IMAGE045
为所述第一局部语义关系特征,
Figure 652667DEST_PATH_IMAGE046
为所述第二局部语义关系特征,“;”表示矩阵或向量的拼接操作,
Figure 91739DEST_PATH_IMAGE047
Figure 758212DEST_PATH_IMAGE048
为多层非线性前馈神经网络。
Figure 257327DEST_PATH_IMAGE043
中的第k行可以看作为第一语句中的第k个词与第二语句中相关的词的向量表示。
在此需要补充说明的是,
Figure 556721DEST_PATH_IMAGE045
Figure 422652DEST_PATH_IMAGE046
中的行可看作是对应于句子中每个词的局部语义关系表示。局部语义关系表示向量可记为
Figure 84578DEST_PATH_IMAGE074
,其中
Figure 629960DEST_PATH_IMAGE075
,m为第一语句中的个数,n为第二语句中的个数。这一部分用作编码器中的局部语义关系提取层。
S203,根据所述第一局部语义关系特征以及所述第二局部语义关系特征,提取得到所述全局语义关系向量。
最后,全局语义关系提取层可基于max操作,融合局部语义关系特征中所包含的信息,如以下公式所示:
Figure 478967DEST_PATH_IMAGE049
其中,
Figure 650054DEST_PATH_IMAGE050
为所述全局语义关系向量,也即是最终提取的全局语义关系表示。
实施例三:
对于所输入的语句的编码,本发明第三实施例还提出一种基于Transformer编码器的编码方法,其具体实现方式如下所述:
首先将隐式篇章关系实例中的第一语句与第二语句组织成形如“[CLS]+第一语句+[SEP]+第二语句+[SEP]”的序列。其中,[CLS]作为一个特殊的标记,添加在第一语句的开头,期望上述第一语句与第二语句之间的全局语义信息能够汇集在此处。[SEP]用于第一语句与第二语句之间的分割标记。
为进一步区分第一语句与第二语句,第一语句使用
Figure 166486DEST_PATH_IMAGE076
向量标识,第二语句使用
Figure 882770DEST_PATH_IMAGE077
向量标识。为了利用句子中的词序信息,使用位置向量
Figure 953494DEST_PATH_IMAGE078
标识,其中m,n分别为第一语句和第二语句的长度。因此,Transformer编码器的输入中,对应于每个词的表示包括三部分:词向量、位置向量以及句子标识向量,这一部分用作Transformer编码器中的输入层。
Transformer编码器的特征提取层主要包含两个子模块:多头自注意力模块(Multi-Head Attention)和前馈神经网络模块(Feed Forward)。多头自注意力模块用于建模序列中任一词(标记)与其他词(标记)之间多个角度的相关性,并基于这些相关性学习词在上下文中的表示。
具体的,给定输入的向量序列表示为
Figure 164158DEST_PATH_IMAGE079
Figure 535096DEST_PATH_IMAGE080
为第一语句中的词对应的向量表示,
Figure 422281DEST_PATH_IMAGE081
为第二语句中的词对应的向量表示,
Figure 511459DEST_PATH_IMAGE082
Figure 758770DEST_PATH_IMAGE083
分别为开始标记和分割标记的向量表示,多头注意力模块的具体计算过程如以下公式所示:
Figure 249794DEST_PATH_IMAGE084
Figure 307880DEST_PATH_IMAGE085
Figure 618776DEST_PATH_IMAGE086
其中,
Figure 168312DEST_PATH_IMAGE087
为对应于第i组注意力机制的参数,
Figure 513843DEST_PATH_IMAGE088
是输入向量的维度。多头注意力模块拼接每组注意力机制得到的结果作为输出。
Figure 742830DEST_PATH_IMAGE089
表示经过第一层中的多头自注意力模块后所得到的序列中的词的表示(拼接在一起),包含了从多个角度建模的词之间的关系,
Figure 541022DEST_PATH_IMAGE090
表示从第i个角度建模的序列中的词的关系的表示。此种通过
Figure 395714DEST_PATH_IMAGE091
(查询)和
Figure 595751DEST_PATH_IMAGE092
(关键字)的相似性程度来确定
Figure 995640DEST_PATH_IMAGE093
(值)的权重的方法称为注意力机制。
前馈神经网络(Feed Forward)包括一个普通的多层非线性前馈神经网络,可表示如下:
Figure 281128DEST_PATH_IMAGE094
其中,矩阵
Figure 237714DEST_PATH_IMAGE095
为第一个特征提取层的输出,
Figure 167623DEST_PATH_IMAGE096
指代的是编码器第一层中的前馈神经网络模块,用于进一步融合
Figure 863047DEST_PATH_IMAGE097
中由多头注意力机制学习到的信息。需要说明的是,两个子层都含有残差操作和正则化操作。残差操作常用于深度神经网络模型中,是一种有效的防止模型训练过程中梯度消失的方法。常用的正则化方法是层正则化(LayerNormalization),其基本思想是将该层中的向量调整为方差为1,均值为0的分布。
为了学习多层次的特征,Transformer使用N个堆叠在一起的特征提取层,最终得到的对应于输入序列的矩阵表示为
Figure 760465DEST_PATH_IMAGE098
。其中,对应于标记[CLS]的向量可以作为全局语义关系的表示,记为
Figure 832326DEST_PATH_IMAGE050
;对应于第一语句和第二语句中每个词的向量可以作为局部语义关系的表示,记为
Figure 616742DEST_PATH_IMAGE074
。也可以认为,基于Transformer的编码器把局部语义关系提取层和全局语义关系提取层整合在一起。
实施例四:
本发明还提出一种隐式篇章关系识别系统,包括相互之间进行数据传输的编码器11以及解码器12,其中,所述解码器12包括依次连接的数据接收模块121、第一处理模块122以及第二处理模块123;
其中数据接收模块121用于:
接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;
第一处理模块122用于:
将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
第二处理模块123用于:
将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系。
本发明还提出一种可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的隐式篇章关系识别方法。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种隐式篇章关系识别方法,其特征在于,所述方法包括如下步骤:
步骤一:接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;
步骤二:将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
步骤三:将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系,所述当前级别包括第一级别、第二级别以及第三级别;
其中,若所述当前级别为第一级别,则使用第零个隐状态作为对应的上一级别的隐状态,使用一个空向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第二级别,则使用第一级别的隐状态作为对应的上一级别的隐状态,使用第一级别的篇章关系向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第三级别,则使用第二级别的隐状态作为对应的上一级别的隐状态,使用第二级别的篇章关系向量作为对应的上一级别的篇章关系向量;
其中,所述计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息;
其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的方法对应的公式表达式为:
Figure 204379DEST_PATH_IMAGE001
其中,
Figure 829395DEST_PATH_IMAGE002
表示根据注意力机制计算得到的第
Figure 846024DEST_PATH_IMAGE003
个权重,
Figure 923701DEST_PATH_IMAGE004
表示第
Figure 769298DEST_PATH_IMAGE005
级篇章关系的隐状态,
Figure 498088DEST_PATH_IMAGE006
为注意力机制参数,
Figure 934886DEST_PATH_IMAGE007
表示第
Figure 765438DEST_PATH_IMAGE003
个局部语义关系向量,
Figure 945884DEST_PATH_IMAGE008
为局部语义关系向量的个数;
Figure 233908DEST_PATH_IMAGE009
Figure 841607DEST_PATH_IMAGE010
表示根据注意力机制计算得到的归一化后的权重分布;
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
Figure 893877DEST_PATH_IMAGE011
其中,
Figure 861701DEST_PATH_IMAGE012
表示第
Figure 315817DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息,
Figure 94417DEST_PATH_IMAGE014
表示归一化的权重分布
Figure 633982DEST_PATH_IMAGE010
的第
Figure 918682DEST_PATH_IMAGE003
个权重。
2.根据权利要求1所述的隐式篇章关系识别方法,其特征在于,在所述步骤三中,输入至所述当前GRU单元的数据表达式为:
Figure 227303DEST_PATH_IMAGE015
其中,
Figure 176805DEST_PATH_IMAGE016
为当前GRU单元的输入,
Figure 938088DEST_PATH_IMAGE017
为所预测的第
Figure 778873DEST_PATH_IMAGE005
级篇章关系的向量表示,
Figure 942002DEST_PATH_IMAGE012
表示第
Figure 62404DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息。
3.根据权利要求2所述的隐式篇章关系识别方法,其特征在于,在所述步骤三中,还存在如下关系式:
Figure 576562DEST_PATH_IMAGE018
Figure 394608DEST_PATH_IMAGE019
Figure 412242DEST_PATH_IMAGE020
Figure 969126DEST_PATH_IMAGE021
其中,
Figure 219847DEST_PATH_IMAGE022
表示第
Figure 887589DEST_PATH_IMAGE013
个重置门,
Figure 759730DEST_PATH_IMAGE023
表示第
Figure 487515DEST_PATH_IMAGE013
个更新门,
Figure 461418DEST_PATH_IMAGE024
均为GRU单元的矩阵参数,
Figure 667271DEST_PATH_IMAGE025
表示当前时刻的状态信息,
Figure 659498DEST_PATH_IMAGE026
表示第
Figure 558184DEST_PATH_IMAGE013
级篇章关系的隐状态,
Figure 252339DEST_PATH_IMAGE027
4.根据权利要求3所述的隐式篇章关系识别方法,其特征在于,所述方法还包括如下步骤:
根据第j级篇章关系的隐状态进行篇章关系分类,以得到第j级篇章关系预测结果;
对应的表达式为:
Figure 261884DEST_PATH_IMAGE028
Figure 374196DEST_PATH_IMAGE029
表示第
Figure 178204DEST_PATH_IMAGE013
级篇章关系的预测结果,MLP为多层感知机,softmax为用于计算概率的归一化指数函数。
5.根据权利要求1所述的隐式篇章关系识别方法,其特征在于,在所述步骤一之前,所述方法还包括:
计算所输入的第一语句与第二语句之间的词对相关性矩阵,根据所述词对相关性矩阵,从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵;
根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征;
根据所述第一局部语义关系特征以及所述第二局部语义关系特征,提取得到所述全局语义关系向量。
6.根据权利要求5所述的隐式篇章关系识别方法,其特征在于,所述词对相关性矩阵、所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系式:
Figure 126700DEST_PATH_IMAGE030
Figure 674356DEST_PATH_IMAGE031
Figure 641175DEST_PATH_IMAGE032
其中,
Figure 616084DEST_PATH_IMAGE033
为所述词对相关性矩阵,
Figure 550411DEST_PATH_IMAGE034
为所述第一权重矩阵,
Figure 901758DEST_PATH_IMAGE035
为所述第二权重矩阵,
Figure 723083DEST_PATH_IMAGE036
为需要训练的参数矩阵,
Figure 134473DEST_PATH_IMAGE037
为输入的第一语句,
Figure 791982DEST_PATH_IMAGE038
为输入的第二语句;
所述第一局部语义关系特征、所述第二局部语义关系特征与所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系:
Figure 681440DEST_PATH_IMAGE039
Figure 622851DEST_PATH_IMAGE040
Figure 939563DEST_PATH_IMAGE041
Figure 582903DEST_PATH_IMAGE042
其中,
Figure 276052DEST_PATH_IMAGE043
为第一加权求和矩阵,
Figure 71970DEST_PATH_IMAGE044
为第二加权求和矩阵,
Figure 825163DEST_PATH_IMAGE045
为所述第一局部语义关系特征,
Figure 660526DEST_PATH_IMAGE046
为所述第二局部语义关系特征,“;”表示矩阵或向量的拼接操作,
Figure 891787DEST_PATH_IMAGE047
Figure 542211DEST_PATH_IMAGE048
为多层非线性前馈神经网络;
所述全局语义关系向量与所述第一局部语义关系特征以及所述第二局部语义关系特征之间存在如下关系:
Figure 715572DEST_PATH_IMAGE049
其中,
Figure 349816DEST_PATH_IMAGE050
为所述全局语义关系向量。
7.一种隐式篇章关系识别系统,包括相互之间进行数据传输的编码器以及解码器,其特征在于,所述解码器包括:
数据接收模块,用于接收编码器发送的全局语义关系向量以及局部语义关系向量,将所述全局语义关系向量作为GRU网络的第零个隐状态;
第一处理模块,用于将上一级对应的隐状态以及所有的所述局部语义关系向量,根据注意力机制计算得到当前级别篇章关系的局部语义关系信息;
第二处理模块,用于将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后,输入至当前GRU单元,以计算得到当前级别的隐式篇章关系,所述当前级别包括第一级别、第二级别以及第三级别;
其中,若所述当前级别为第一级别,则使用第零个隐状态作为对应的上一级别的隐状态,使用一个空向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第二级别,则使用第一级别的隐状态作为对应的上一级别的隐状态,使用第一级别的篇章关系向量作为对应的上一级别的篇章关系向量;
若所述当前级别为第三级别,则使用第二级别的隐状态作为对应的上一级别的隐状态,使用第二级别的篇章关系向量作为对应的上一级别的篇章关系向量;
所述第一处理模块用于:
根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布;
根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息;
其中,所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的公式表达式为:
Figure 384768DEST_PATH_IMAGE001
其中,
Figure 889699DEST_PATH_IMAGE002
表示根据注意力机制计算得到的第
Figure 735426DEST_PATH_IMAGE003
个权重,
Figure 591387DEST_PATH_IMAGE004
表示第
Figure 164450DEST_PATH_IMAGE005
级篇章关系的隐状态,
Figure 789467DEST_PATH_IMAGE006
为注意力机制参数,
Figure 304631DEST_PATH_IMAGE007
表示第
Figure 382308DEST_PATH_IMAGE003
个局部语义关系向量,
Figure 24642DEST_PATH_IMAGE008
为局部语义关系向量的个数;
Figure 504165DEST_PATH_IMAGE009
Figure 691695DEST_PATH_IMAGE010
表示根据注意力机制计算得到的归一化后的权重分布;
所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为:
Figure 256668DEST_PATH_IMAGE011
其中,
Figure 171535DEST_PATH_IMAGE012
表示第
Figure 771143DEST_PATH_IMAGE013
级篇章关系的局部语义关系信息,
Figure 628110DEST_PATH_IMAGE014
表示归一化的权重分布
Figure 680379DEST_PATH_IMAGE010
的第
Figure 398937DEST_PATH_IMAGE003
个权重。
8.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至6任意一项所述的隐式篇章关系识别方法。
CN202010539890.9A 2020-06-15 2020-06-15 隐式篇章关系识别方法、系统及可读存储介质 Active CN111428525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539890.9A CN111428525B (zh) 2020-06-15 2020-06-15 隐式篇章关系识别方法、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539890.9A CN111428525B (zh) 2020-06-15 2020-06-15 隐式篇章关系识别方法、系统及可读存储介质

Publications (2)

Publication Number Publication Date
CN111428525A CN111428525A (zh) 2020-07-17
CN111428525B true CN111428525B (zh) 2020-09-15

Family

ID=71551383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539890.9A Active CN111428525B (zh) 2020-06-15 2020-06-15 隐式篇章关系识别方法、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN111428525B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560500A (zh) * 2020-12-17 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本处理方法、装置、设备及存储介质
CN112395876B (zh) * 2021-01-21 2021-04-13 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
CN112836048A (zh) * 2021-01-27 2021-05-25 天津大学 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法
CN112949421B (zh) * 2021-02-05 2023-07-25 华中师范大学 人工智能理科图文题解题方法、装置、设备及存储介质
CN113535973B (zh) * 2021-06-07 2023-06-23 中国科学院软件研究所 基于知识映射的事件关系抽取、语篇关系分析方法及装置
CN113377915B (zh) * 2021-06-22 2022-07-19 厦门大学 对话篇章解析方法
CN113255371B (zh) * 2021-07-14 2021-09-24 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统
CN116432752B (zh) * 2023-04-27 2024-02-02 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用
CN116882398B (zh) * 2023-09-06 2023-12-08 华东交通大学 基于短语交互的隐式篇章关系识别方法和系统
CN118013962B (zh) * 2024-04-09 2024-06-21 华东交通大学 一种基于双向序列生成的汉语篇章连接词识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033073A (zh) * 2018-06-28 2018-12-18 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109598000A (zh) * 2018-12-28 2019-04-09 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111209366A (zh) * 2019-10-10 2020-05-29 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355372B2 (en) * 2013-07-03 2016-05-31 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN105955956B (zh) * 2016-05-05 2019-01-22 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN110888980B (zh) * 2019-10-10 2023-12-22 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033073A (zh) * 2018-06-28 2018-12-18 中国科学院自动化研究所 文本蕴含识别方法及装置
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109598000A (zh) * 2018-12-28 2019-04-09 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111209366A (zh) * 2019-10-10 2020-05-29 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hierarchical multi-task learning with CRF for implicit discourse relation recognition;Changxing Wu,et al.;《Knowledge-Based Systems》;20200213;第195卷;第1-10页 *
Leveraging bilingually-constrained synthetic data via multi-task neural networks for implicit discourse relation recognition;Changxing Wu,et al.;《Knowledge-Based Systems》;20200308;第243卷;第69-79页 *
基于堆叠式注意力机制的隐式篇章关系识别;阮慧彬等;《山西大学学报(自然科学版)》;20200512;第1-12页 *
基于深度学习的隐式篇章关系识别综述;胡超文等;《计算机科学》;20200404;第47卷(第4期);第157-163页 *
汉语隐式篇章关系识别;孙静等;《北京大学学报(自然科学版)》;20140131;第50卷(第1期);第111-117页 *

Also Published As

Publication number Publication date
CN111428525A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428525B (zh) 隐式篇章关系识别方法、系统及可读存储介质
CN110334354B (zh) 一种中文关系抽取方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Fathi et al. Deep neural networks for natural language processing
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112084327A (zh) 在保留语义的同时对稀疏标注的文本文档的分类
CN112395876B (zh) 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
Le et al. Multi-task learning for metaphor detection with graph convolutional neural networks and word sense disambiguation
CN111309919A (zh) 文本分类模型的系统及其训练方法
Khodeir Bi-GRU urgent classification for MOOC discussion forums based on BERT
CN110633473B (zh) 基于条件随机场的隐式篇章关系识别方法与系统
Liu et al. The referential reader: A recurrent entity network for anaphora resolution
CN111259147B (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Mulamba et al. Hybrid classification and reasoning for image-based constraint solving
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
Ludwig et al. Deep embedding for spatial role labeling
CN113312920A (zh) 基于图对比学习的验证方法、系统、设备和存储介质
Kassawat et al. Incorporating joint embeddings into goal-oriented dialogues with multi-task learning
CN113268985A (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
Wei et al. Named entity recognition method for educational emergency field based on BERT
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备
CN113435212B (zh) 一种基于规则嵌入的文本推断方法及装置
CN115659981A (zh) 一种基于神经网络模型的命名实体识别方法
Kandi Language Modelling for Handling Out-of-Vocabulary Words in Natural Language Processing
Li et al. EMOVA: A semi-supervised end-to-end moving-window attentive framework for aspect mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant