CN118013962A - 一种基于双向序列生成的汉语篇章连接词识别方法 - Google Patents
一种基于双向序列生成的汉语篇章连接词识别方法 Download PDFInfo
- Publication number
- CN118013962A CN118013962A CN202410417577.6A CN202410417577A CN118013962A CN 118013962 A CN118013962 A CN 118013962A CN 202410417577 A CN202410417577 A CN 202410417577A CN 118013962 A CN118013962 A CN 118013962A
- Authority
- CN
- China
- Prior art keywords
- chapter
- words
- connective
- candidate
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 239000002131 composite material Substances 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012805 post-processing Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于双向序列生成的汉语篇章连接词识别方法,通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示,基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,计算候选篇章连接词的最终语义向量表示,基于双向序列生成的预测模块包括正向生成层和反向生成层,分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列,实现篇章连接词的识别,此外,通过后处理模块处理复合连接词的识别问题,并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习,提升识别的性能,本发明能够充分捕获篇章连接词之间双向长距离的依赖关系,显著地提高汉语篇章连接词识别的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于双向序列生成的汉语篇章连接词识别方法。
背景技术
篇章连接词是指在句子或子句之间起连接作用,并能表示它们之间的语义关系的语言单位(例如,“但是”)。准确识别篇章连接词是后续篇章关系分类和篇章结构树构建的前提和基础。现有研究表明,英语篇章连接词识别的准确率可达到95%以上,已经能够满足实用的要求;然而,汉语篇章连接词识别的准确率则低得多,在给定句法树的情况下准确率尚不到90%。在端到端的汉语篇章结构分析系统中,由于汉语篇章连接词识别的准确率不高,导致后续篇章关系分类的性能下降超过10%,目前尚不能满足实际应用的需要。
汉语篇章连接词识别准确率不高的原因主要有:1)篇章连接词的数量较多,例如,常用的中文CDTB语料中共标注了274个篇章连接词,而常用的英文PDTB语料中仅有102个篇章连接词;2)复合篇章连接词(例如,“同时……也”)所占比例较高,增加了识别的难度。因此,汉语篇章连接词识别依然是值得研究的基础问题之一。
现有的汉语篇章连接词识别方法可以大致分为以下两大类:1)基于分类的方法,其通常基于人工抽取的特征或自动学习的特征对侯选篇章连接词进行分类。这类方法的优点是模型比较简单,时间效率高,缺点是性能相对低。2)基于序列标注的方法,其通常基于条件随机场等模型建模相邻篇章连接词之间的依赖关系,取得了比基于分类的方法稍好的识别性能。然而,不管是基于分类的方法还是基于序列标注的方法,都没有考虑篇章连接词之间的长距离依赖关系。具体地,多个篇章连接词之间可能存在长距离依赖关系,不相邻的复合篇章连接词之间也存在长距离依赖关系,影响了识别性能。
发明内容
为此,本发明的实施例提出一种基于双向序列生成的汉语篇章连接词识别方法,以充分捕获篇章连接词之间双向长距离的依赖关系,提升识别性能。
根据本发明一实施例的基于双向序列生成的汉语篇章连接词识别方法,应用于汉语篇章连接词识别模型,所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块;
所述方法包括:
通过句子预处理及编码模块对输入段落中的每个句子进行预处理,得到预处理后的句子,预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符,然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示;
基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,在所有词条的初始语义向量表示的基础上,计算候选篇章连接词的最终语义向量表示;
基于双向序列生成的预测模块包括正向生成层和反向生成层,以候选篇章连接词的最终语义向量表示为输入,正向生成层基于长短时记忆网络从左到右生成篇章连接词序列,以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布,反向生成层基于长短时记忆网络从右到左生成篇章连接词序列,以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布,并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习,然后对正向生成层和反向生成层计算的概率分布求平均值,将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果,从而识别出篇章连接词;
在后处理模块中,以基于双向序列生成的预测模块识别出的篇章连接词为输入,利用预定义的启发式规则对篇章连接词进行配对,以识别出输入段落中的复合篇章连接词。
根据本发明实施例的基于双向序列生成的汉语篇章连接词识别方法,通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示,然后基于Longformer的段落编码模块引入段落级别的上下文信息,学习候选篇章连接词的最终语义向量表示,基于双向序列生成的预测模块包括正向生成层和反向生成层,分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列,实现篇章连接词的识别,此外,通过后处理模块处理复合连接词的识别问题,并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习,提升识别的性能,本发明提出的方法能够充分捕获篇章连接词之间双向长距离的依赖关系,显著地提高汉语篇章连接词识别的性能。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一实施例的汉语篇章连接词识别模型的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出一种基于双向序列生成的汉语篇章连接词识别方法,应用于汉语篇章连接词识别模型,请参阅图1,所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块。
所述方法包括步骤1~步骤4:
步骤1,通过句子预处理及编码模块对输入段落中的每个句子进行预处理,得到预处理后的句子,预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符,然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示。
其中,句子预处理及编码模块用于学习候选篇章连接词的初始语义向量表示。句子预处理及编码模块对输入段落中的每个句子进行预处理,具体包括中文分词、标记候选篇章连接词和拼接预定义占位符三个步骤。中文分词可以选用JIEBA、NLPIR和THULAC等常用的分词工具。分词后,基于汉语篇章连接词集合找出句子中所有的候选篇章连接词,并使用<cand></cand>进行标记。最后,在句子的首尾分别拼接预训练的语言模型中定义的全局占位符[CLS]和分割占位符[SEP]。例如,句子“这是一项影响深远的工程,也是我们最迫切要办的事。”经过预处理后的结果为:“[CLS] 这是 一 项 影响 深远 的 工程 ,<cand> 也是 </cand> 我们 最 迫切 要 办 的 事 [SEP]”。
编码阶段基于预训练语言模型学习句子中所有词条(token)的初始语义向量表示,这里的词条包括句子中一般的词、候选篇章连接词、标记<cand>和</cand>、以及占位符[CLS]和[SEP]。预训练语言模型基于大量无标注的文本进行训练,具有丰富的语义表示能力和强大的上下文理解能力,在文本分类、情感分析、问答系统和文本生成等众多自然语言处理任务上表现出色。具体地,给定输入段落P中第个句子/>预处理后的句子/>,计算其中所有词条的初始语义向量表示,具体如下:
其中,为RoBERTa或XLNet等预训练语言模型,/>为预处理后的第/>个句子,为/>中所有词条的初始语义向量表示构成的矩阵,/>,/>为输入段落P中句子的数量。
需要说明的是:预处理后的每个句子中的第一个词条为全局占位符[CLS],其对应的语义向量可看作该句子的全局语义向量表示;使用<cand>和</cand>标记候选篇章连接词后,可使预训练语言模型重点关注这些词,从而更好地学习它们的初始语义向量表示;预训练语言模型通常基于句子级的语料进行训练,所以本发明中句子预处理和编码模块分别对段落中的每个句子进行预处理和编码。
步骤2,基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,在所有词条的初始语义向量表示的基础上,计算候选篇章连接词的最终语义向量表示。
其中,经典Transformer中自注意力机制的计算时间随着序列长度呈二次方增长,当序列较长时(例如,段落)计算比较慢。与之相比,Longformer通过引入全局注意力机制和局部注意力机制,可以有效地学习长序列中的上下文信息,同时较大幅度地降低计算量。具体地,给定输入段落P经过句子预处理和编码模块后的输出结果,计算该段落中所有词条的最终语义向量表示如下:
其中,为由输入段落P中所有词条的最终语义向量表示构成的矩阵,Longformer表示使用Longformer模型进行编码,/>为预处理后的第1个句子中所有词条的初始语义向量表示构成的矩阵,/>为预处理后的第/>个句子中所有词条的初始语义向量表示构成的矩阵,符号/>表示矩阵或向量的拼接操作,/>表示掩码矩阵,K为输入段落中候选篇章连接词的总数,/>为输入段落中句子的总数。
Longformer是自然语言处理领域常用于处理长序列输入的神经网络模块,主要包括全局和局部注意力机制的计算,其计算过程这里不再赘述,下面重点介绍计算中关键的掩码矩阵。
为由0和1构成的/>矩阵,/>为输入段落P中词条的总数,/>用于指示输入段落中的哪些词条之间需要进行信息交互。例如,/>表明输入段落中第/>个词条和第/>个词条之间需要进行信息交互,/>表示掩码矩阵/>中第/>行和第/>列对应的元素的值。为了建模输入段落中的全局上下文信息,Longformer中引入了全局注意力机制,其中涉及的全局词条与输入段落中的每个词条进行信息交互。相应地,掩码矩阵/>中这些词条对应的行和列上的值均为1。本发明中,为了更好地学习候选篇章连接词的语义向量表示,除了把每个句子中开头的全局占位符[CLS]定义为全局词条外,还把输入段落中所有的候选篇章连接词定义为全局词条。为了建模输入段落中的局部上下文信息,Longformer中引入了局部注意力机制,其中涉及的局部词条只与其前后/>个词条以及全局词条进行信息交互,/>,其中<<表示远小于。相应地,假设输入段落中的第/>个词条被定义为局部词条,那么掩码矩阵/>中相应元素的值/>。本发明中,把输入段落中除全局词条外的其他词条定义为局部词条。掩码矩阵/>中其他元素(无信息交互的词条对应的元素)的值为0。
然后,基于Longformer的段落编码模块输出候选篇章连接词的最终语义向量表示,具体计算如下所示:
其中,分别为输入段落P中第1个、第/>个、第K个候选篇章连接词的最终语义向量表示;/>为候选篇章连接词在输入段落P中位置的指示矩阵(维度为/>),其中每列均为独热编码的向量(仅有一个元素为1,其余元素均为0)。例如,假设第一个候选篇章连接词为段落中的第3个词条,那么/>中的第一列为[0,0,1,0,…,0]。
步骤3,基于双向序列生成的预测模块包括正向生成层和反向生成层,以候选篇章连接词的最终语义向量表示为输入,正向生成层基于长短时记忆网络从左到右生成篇章连接词序列,以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布,反向生成层基于长短时记忆网络从右到左生成篇章连接词序列,以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布,并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习,然后对正向生成层和反向生成层计算的概率分布求平均值,将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果,从而识别出篇章连接词。
其中,基于双向序列生成的预测模块包括正向生成层和反向生成层,分别使用两个长短时记忆网络(LSTM)从左至右和从右至左预测篇章连接词序列,以有效地建模段落中的篇章连接词之间的双向长距离依赖关系。长短时记忆网络是循环神经网络的一种变种,是处理序列数据的常用神经网络,其通过门机制(遗忘门、输入门和输出门)更新和遗忘信息,有效地缓解了循环神经网络在处理长序列时容易产生的梯度消失和梯度爆炸的问题。在发明实施的过程中,循环神经网络的另一变种门控循环神经网络(GRU)也可用于代替LSTM。
具体地,正向生成层基于长短时记忆网络从左到右生成篇章连接词序列,即计算正向预测时第个候选篇章连接词为篇章连接词的概率分布/>,按如下公式计算:
其中,表示归一化指数函数,/>和/>为正向生成层中需要学习的参数,/>为从左至右的长短时记忆网络,/>和/>为/>中的隐状态,/>是正向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示,/>表示正向预测时前一预测结果的向量表示,如果预测为“真”,则为对应候选篇章连接词的向量表示/>,否则为零向量。
类似地,反向生成层基于长短时记忆网络从右到左生成篇章连接词序列,即计算反向预测时第个候选篇章连接词为篇章连接词的概率分布/>,按如下公式计算:
其中,和/>为反向生成层中需要学习的参数,/>为从右至左的长短时记忆网络,/>和/>为/>中的隐状态,/>是反向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示,/>表示反向预测时前一预测结果的向量表示,如果预测为“真”,则为对应候选篇章连接词的向量表示,否则为零向量。
最后对和/>求平均值,如下所示:
本实施例中,表示第/>个候选篇章连接词为篇章连接词的最终预测结果,/>中的两个元素/>和/>分别表示正向预测时第/>个候选篇章连接词是否为篇章连接词序列的概率值;/>中的两个元素/>和/>分别表示反向预测时第/>个候选篇章连接词是否为篇章连接词序列的概率值;本实施例中,定义/>表示其为篇章连接词,否则不是篇章连接词,/>是/>中的第一个值。
此外,基于双向序列生成的预测模块中的正向生成层和反向生成层分别从不同的方向建模了篇章连接词之间的长距离依赖关系,它们学到的知识是可以互补的。本发明采用互学习代价增强的训练模块在正向生成层和反向生成层之间迁移知识,以达到相互促进、共同提高的目的。互学习的基本思想是使正向生成层和反向生成层计算的特征或概率分布尽量趋于一致。本发明中,对候选篇章连接词的预测是个二分类问题,计算的概率分布均为二维的向量,其蕴含的知识比较少,用于互学习效果并不理想。因此,本发明基于特征进行互学习,并把正向生成层和反向生成层中的长短时记忆网络的隐状态用作特征。具体地,分别定义训练模型的两个代价函数如下:
为训练基于Longformer的段落编码模块和正向生成层的代价函数,/>为训练反向生成层的代价函数,/>为基于Longformer的段落编码模块和正向生成层中的参数的集合,/>为反向生成层中的参数的集合,D为人工标注的训练数据集,CE为交叉熵代价计算函数,/>为第/>个候选篇章连接词为篇章连接词的真实概率分布,/>和/>为权重系数,MSE为基于均方误差的互学习代价计算函数。
需要说明的是:1)句子预处理和编码模块中预训练语言模型的参数固定不变,不参与模型的训练过程,以节省模型训练的时间。2)模型训练的过程中,从训练数据集D中依次取出段落,首先计算J 1并更新相应模块的参数,然后计算J 2并更新相应模块的参数,循环执行上述过程直到模型收敛。3)训练结束后得到的基于双向序列生成的汉语篇章连接词识别模型,可用于识别新输入段落中的篇章连接词。4)在使用模型进行汉语篇章连接词识别的过程中,不再需要互学习代价增强的训练模块。
步骤4,在后处理模块中,以基于双向序列生成的预测模块识别出的篇章连接词为输入,利用预定义的启发式规则对篇章连接词进行配对,以识别出输入段落中的复合篇章连接词。
其中,后处理模块基于预定义的启发式规则对识别出的篇章连接词进行配对,以确定是否能构成复合篇章连接词。例如,基于双向序列生成的预测模块能识别出"因为"和"所以"为篇章连接词,但无法判断它们是否能构成一个复合篇章连接词。本发明中,预定义的启发式规则包括以下三个规则:
规则1:如果一个句子中的两个或多个篇章连接词可以配对,即在篇章连接词集合中存在相应的复合篇章连接词,则确定这两个或多个篇章连接词构成一个复合篇章连接词;
规则2:如果相邻句子中的两个或多个篇章连接词可以配对,且各自位于相应句子的句首,则确定这个两个或多个篇章连接词构成一个复合篇章连接词;
规则3:如果两个复合篇章连接词覆盖的文本片段有部分重合(两个复合篇章连接词不能交叉,但可以是相互嵌套的),则舍弃位于后面的复合篇章连接词。
后处理模块以基于双向序列生成的预测模块识别出的篇章连接词为输入,依次利用规则1和规则2找出复合篇章连接词,然后利用规则3舍去不合要求的复合篇章连接词。启发式规则还可以进一步扩充,以更准确地找出段落中的复合篇章连接词。
根据上述的基于双向序列生成的汉语篇章连接词识别方法,通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示,然后基于Longformer的段落编码模块引入段落级别的上下文信息,学习候选篇章连接词的最终语义向量表示,基于双向序列生成的预测模块包括正向生成层和反向生成层,分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列,实现篇章连接词的识别,此外,通过后处理模块处理复合连接词的识别问题,并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习,提升识别的性能,本发明提出的方法能够充分捕获篇章连接词之间双向长距离的依赖关系,显著地提高汉语篇章连接词识别的性能。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种基于双向序列生成的汉语篇章连接词识别方法,其特征在于,应用于汉语篇章连接词识别模型,所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块;
所述方法包括:
通过句子预处理及编码模块对输入段落中的每个句子进行预处理,得到预处理后的句子,预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符,然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示;
基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,在所有词条的初始语义向量表示的基础上,计算候选篇章连接词的最终语义向量表示;
基于双向序列生成的预测模块包括正向生成层和反向生成层,以候选篇章连接词的最终语义向量表示为输入,正向生成层基于长短时记忆网络从左到右生成篇章连接词序列,以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布,反向生成层基于长短时记忆网络从右到左生成篇章连接词序列,以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布,并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习,然后对正向生成层和反向生成层计算的概率分布求平均值,将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果,从而识别出篇章连接词;
在后处理模块中,以基于双向序列生成的预测模块识别出的篇章连接词为输入,利用预定义的启发式规则对篇章连接词进行配对,以识别出输入段落中的复合篇章连接词。
2.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,句子预处理及编码模块满足以下条件式:
;
其中,为预训练语言模型,/>为预处理后的第/>个句子,/>为/>中所有词条的初始语义向量表示构成的矩阵。
3.根据权利要求2所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,基于Longformer的段落编码模块满足以下条件式:
;
其中,分别为输入段落P中第1个、第/>个、第K个候选篇章连接词的最终语义向量表示,/>为由输入段落P中所有词条的最终语义向量表示构成的矩阵,/>为候选篇章连接词在输入段落P中位置的指示矩阵,Longformer表示使用Longformer模型进行编码,/>为预处理后的第1个句子中所有词条的初始语义向量表示构成的矩阵,/>为预处理后的第/>个句子中所有词条的初始语义向量表示构成的矩阵,符号/>表示矩阵或向量的拼接操作,/>表示掩码矩阵,/>为由0和1构成的/>矩阵,/>为输入段落P中词条的总数,K为输入段落中候选篇章连接词的总数,I为输入段落中句子的总数。
4.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,在基于Longformer的段落编码模块中,将预处理后的每个句子中开头的全局占位符定义为全局词条,并将输入段落中所有的候选篇章连接词定义为全局词条,将输入段落中除全局词条外的其他词条定义为局部词条,其中,全局词条与输入段落中的每个词条进行信息交互,局部词条只与其前后个词条以及全局词条进行信息交互。
5.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,基于双向序列生成的预测模块满足以下条件式:
;
其中,表示正向预测时第/>个候选篇章连接词为篇章连接词的概率分布,/>表示反向预测时第/>个候选篇章连接词为篇章连接词的概率分布,/>表示第/>个候选篇章连接词为篇章连接词的最终预测结果,/>表示归一化指数函数,/>和/>为正向生成层中需要学习的参数,/>为从左至右的长短时记忆网络,/>和/>为/>中的隐状态,/>是正向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示,/>表示正向预测时前一预测结果的向量表示,/>和/>为反向生成层中需要学习的参数,/>为从右至左的长短时记忆网络,/>和为/>中的隐状态,/>是反向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示,/>表示反向预测时前一预测结果的向量表示。
6.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,预定义的启发式规则包括以下三个规则:
规则1:如果一个句子中的两个或多个篇章连接词可以配对,即在篇章连接词集合中存在相应的复合篇章连接词,则确定这两个或多个篇章连接词构成一个复合篇章连接词;
规则2:如果相邻句子中的两个或多个篇章连接词可以配对,且各自位于相应句子的句首,则确定这个两个或多个篇章连接词构成一个复合篇章连接词;
规则3:如果两个复合篇章连接词覆盖的文本片段有部分重合,则舍弃位于后面的复合篇章连接词。
7.根据权利要求5所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,通过互学习代价增强的训练模块满足以下条件式:
;
为训练基于Longformer的段落编码模块和正向生成层的代价函数,/>为训练反向生成层的代价函数,/>为基于Longformer的段落编码模块和正向生成层中的参数的集合,为反向生成层中的参数的集合,D为人工标注的训练数据集,CE为交叉熵代价计算函数,为第/>个候选篇章连接词为篇章连接词的真实概率分布,/>和/>为权重系数,MSE为基于均方误差的互学习代价计算函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410417577.6A CN118013962B (zh) | 2024-04-09 | 2024-04-09 | 一种基于双向序列生成的汉语篇章连接词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410417577.6A CN118013962B (zh) | 2024-04-09 | 2024-04-09 | 一种基于双向序列生成的汉语篇章连接词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118013962A true CN118013962A (zh) | 2024-05-10 |
CN118013962B CN118013962B (zh) | 2024-06-21 |
Family
ID=90958840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410417577.6A Active CN118013962B (zh) | 2024-04-09 | 2024-04-09 | 一种基于双向序列生成的汉语篇章连接词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118013962B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN110633473A (zh) * | 2019-09-25 | 2019-12-31 | 华东交通大学 | 基于条件随机场的隐式篇章关系识别方法与系统 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN112100376A (zh) * | 2020-09-11 | 2020-12-18 | 湖南大学 | 用于细粒度情感分析的相互增强转换网络 |
CN112487189A (zh) * | 2020-12-08 | 2021-03-12 | 武汉大学 | 一种图卷积网络增强的隐式篇章文本关系分类方法 |
CN112836048A (zh) * | 2021-01-27 | 2021-05-25 | 天津大学 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN115129819A (zh) * | 2022-07-14 | 2022-09-30 | 广州欢聚时代信息科技有限公司 | 文本摘要模型生产方法及其装置、设备、介质 |
WO2022219555A1 (en) * | 2021-04-14 | 2022-10-20 | Csats, Inc. | Computer vision-based surgical workflow recognition system using natural language processing techniques |
WO2023175516A1 (en) * | 2022-03-15 | 2023-09-21 | Ancestry.Com Operations Inc. | Machine-learning based automated document integration into genealogical trees |
CN117708339A (zh) * | 2024-02-05 | 2024-03-15 | 中南大学 | 一种基于预训练语言模型的icd自动编码方法 |
-
2024
- 2024-04-09 CN CN202410417577.6A patent/CN118013962B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN110633473A (zh) * | 2019-09-25 | 2019-12-31 | 华东交通大学 | 基于条件随机场的隐式篇章关系识别方法与系统 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN112100376A (zh) * | 2020-09-11 | 2020-12-18 | 湖南大学 | 用于细粒度情感分析的相互增强转换网络 |
CN112487189A (zh) * | 2020-12-08 | 2021-03-12 | 武汉大学 | 一种图卷积网络增强的隐式篇章文本关系分类方法 |
CN112836048A (zh) * | 2021-01-27 | 2021-05-25 | 天津大学 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
WO2022219555A1 (en) * | 2021-04-14 | 2022-10-20 | Csats, Inc. | Computer vision-based surgical workflow recognition system using natural language processing techniques |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
WO2023175516A1 (en) * | 2022-03-15 | 2023-09-21 | Ancestry.Com Operations Inc. | Machine-learning based automated document integration into genealogical trees |
CN115129819A (zh) * | 2022-07-14 | 2022-09-30 | 广州欢聚时代信息科技有限公司 | 文本摘要模型生产方法及其装置、设备、介质 |
CN117708339A (zh) * | 2024-02-05 | 2024-03-15 | 中南大学 | 一种基于预训练语言模型的icd自动编码方法 |
Non-Patent Citations (4)
Title |
---|
GLORIA PHILLIPS-WREN ET AL: "Attention-based bidirectional LSTM with embedding technique for classification of COVID-19 articles", 《INTELLIGENT DECISION TECHNOLOGIES, 》, 18 April 2022 (2022-04-18) * |
凡子威;张民;李正华;: "基于BiLSTM并结合自注意力机制和句法信息的隐式篇章关系分类", 计算机科学, no. 05, 15 May 2019 (2019-05-15) * |
田文洪;高印权;黄厚文;黎在万;张朝阳;: "基于多任务双向长短时记忆网络的隐式句间关系分析", 中文信息学报, no. 05, 15 May 2019 (2019-05-15) * |
赵洪;: "生成式自动文摘的深度学习方法综述", 情报学报, no. 03, 24 March 2020 (2020-03-24) * |
Also Published As
Publication number | Publication date |
---|---|
CN118013962B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111651974B (zh) | 一种隐式篇章关系分析方法和系统 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN113673535B (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN113254575A (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN118013962B (zh) | 一种基于双向序列生成的汉语篇章连接词识别方法 | |
US20240086643A1 (en) | Visual Dialogue Method and System | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
CN114003773A (zh) | 一种基于自构建多场景的对话追踪方法 | |
CN116071641B (zh) | 一种水下图像中文描述生成方法、装置、设备及存储介质 | |
CN113869065B (zh) | 一种基于“单词-短语”注意力机制的情感分类方法和系统 | |
CN116541505B (zh) | 一种基于自适应对话分割的对话摘要生成方法 | |
Sheng et al. | Revolutionizing Image Captioning: Integrating Attention Mechanisms with Adaptive Fusion Gates. | |
CN118277556A (zh) | 多级分类模型分类方法、训练方法、装置、设备及介质 | |
Pang et al. | An approach to generate topic similar document by seed extraction-based SeqGAN training for bait document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |