CN113378546A - 一种非自回归的句子排序方法 - Google Patents
一种非自回归的句子排序方法 Download PDFInfo
- Publication number
- CN113378546A CN113378546A CN202110648939.9A CN202110648939A CN113378546A CN 113378546 A CN113378546 A CN 113378546A CN 202110648939 A CN202110648939 A CN 202110648939A CN 113378546 A CN113378546 A CN 113378546A
- Authority
- CN
- China
- Prior art keywords
- sentence
- attention
- head
- context
- autoregressive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
为了实现并行预测提高预测效率,解决误差累积提高句子排序任务的性能,考虑到句子排序任务中生成目标的长度具有确定性,并且句子和位置具有完全匹配性,本发明创新性地设计了一种非自回归的句子排序方法,采用非自回归解码器,充分利用了Transformer变体结构所得到的上下文句子特征,从而并行地预测每个位置的句子,能够有效避免循环神经网络解码器递归地预测句子顺序所带来的效率低下与误差累积的难题。
Description
技术领域
本发明属于句子排序技术领域,更为具体地讲,涉及一种非自回归的句子排序方法。
背景技术
句子排序是建模文档连贯性的基本任务和常见任务之一,其目标是将一组句子重新组织为一段连贯的文本。
现有的句子排序方法,通常采用编码器-解码器体系结构,利用指针网络进行序列预测。由于输入段落中的句子是无序的,循环神经网络的编码方式将所有句子表征映射为段落的特征向量,这样的方式会捕获句子之间的错误语义逻辑,从而误导解码器预测出不连贯的段落,显然同一段落的不同排列方式可能会得到不同的段落表示特征,并导致输出不同的句子顺序。
启发于自注意力机制,现有的句子排序方法采用去除位置编码的Transformer变体结构来提取更可靠的段落表征,以消除句子输入顺序带来的影响。当前主流的句子排序方法是一种自回归的注意力句子排序方法,利用Bi-LSTM来提取基本的句子特征向量,并基于自注意力机制学习段落中的句子特征,平均池化后获得段落特征来初始化循环神经网络解码器的隐层状态,通过指针网络,采用贪心搜索或集束搜索递归地预测有序句子。
尽管自回归的注意力句子排序方法能有效解决句子输入顺序问题而获得可靠的段落特征,并进一步提升句子排序任务的性能。然而,其有两个不足,(1)现有的句子排序方法采用指针网络来递归地逐步预测每个句子的顺序,这种自回归的方式效率较低,算法复杂度高,无法并行实现预测,需要更多的开销。(2)现有的方法采用了循环神经网络解码器,循环神经网络的循环性会导致排序解码器在序列预测的过程中产生误差累积,会限制句子排序任务的性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种非自回归的句子排序方法,以有效实现并行预测,提高预测效率,同时,解决误差积累问题,提高句子排序任务的性能。
为实现上述发明目的,本发明非自回归的句子排序方法,其特征在于,包括以下步骤:
(1)、构建句子排序网络
构建基本句子编码器、上下文句子编码器以及非自回归解码器,并组成句子排序网络,其中,非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成;
(2)、获得基本句子特征
(3)、获取上下文句子特征
所述的上下文句子编码器由M个注意力块构成,每个注意力块包括一个多头注意力模块以及一个前馈全连接层;
在上下文句子编码器的第一个注意力块中,首先,通过多头注意力模块得到多头注意力:
MH(Q,K,V)=[H1,H2,…,HG]WE
将第一个注意力块中得到的上下文句子特征进行拼接,然后作为送入第二个注意力块中进行与第一个注意力块中相同的处理,这样,依次在M个注意力块进行处理,最后输出的上下文句子特征并作为上下文句子编码器输出上下文句子特征并表示为上下文句子特征集合
(4)、句子排序
4.1)、将离散位置投影嵌入为紧凑表示pi,每一维为:
其中,i表示位置的编号,pi,j紧凑表示pi中的第j维,得到N个位置的嵌入表示p1,p2,…,pN;
4.3)、在多头互注意力机制中,使用位置查询上下文句子特征得到句子关于位置的注意力特征集合Ep:
4.4)、在指针网络中,计算N个句子在位置i的概率分布Ptri:
Ptri=softmax(ωi)
4.5)、在概率分布Ptri中,最大一维对应维度句子序号,将对应句子放大位置i,这样完成句子的排序。
本发明的目的是这样实现的。
为了实现并行预测提高预测效率,解决误差累积提高句子排序任务的性能,考虑到句子排序任务中生成目标的长度具有确定性,并且句子和位置具有完全匹配性,本发明创新性地设计了一种非自回归的句子排序方法,采用非自回归解码器,充分利用了Transformer变体结构所得到的上下文句子特征,从而并行地预测每个位置的句子,能够有效避免循环神经网络解码器递归地预测句子顺序所带来的效率低下与误差累积的难题。
附图说明
图1是本发明非自回归的句子排序方法一种具体实施方式流程图;
图2是本发明非自回归的句子排序方法一种具体实施方式原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
现有的句子排序方法编码时利用Bi-LSTM提取基本的句子特征向量,并利用自注意力机制提取段落中结合上下文的句子特征,然后通过平均池化操作得到段落特征,特别注意,这里采用了去除位置编码的Transformer变体结构。解码时采用指针网络架构作为解码器,该解码器由LSTM单元组成,基本的句子特征向量作为解码器的输入,第一步的输入向量是零向量,段落特征作为隐层初始状态。其解码是基于循环神经网络的自回归的方式,效率较低,无法实现并行预测,并且在序列预测过程中产生误差累积。
图1是本发明非自回归的句子排序方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明非自回归的句子排序方法,其特征在于,包括以下步骤:
步骤S1:构建句子排序网络
如图2所示,构建基本句子编码器、上下文句子编码器以及非自回归解码器,并组成句子排序网络,其中,非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成。
步骤S2:获得基本句子特征
在本实施例中,采用BERT预训练模型作为基本句子编码器来获取基本的句子特征集合特别地,将[CLS]和单词序列连接作为基本句子编码器的输入,并采用端到端的方式对其进行微调,使得句子表征与句子排序任务更加兼容。
步骤S3:获取上下文句子特征
为了恢复连贯的顺序,重要的是利用句子之间的语义关系,在获得基本句子特征之后,本发明采用去除位置编码的Transformer变体结构,其使用了缩放点积的自注意力机制以利用上下文信息。
所述的上下文句子编码器由M个注意力块构成,每个注意力块包括一个多头注意力模块以及一个前馈全连接层;
在上下文句子编码器的第一个注意力块中,首先,通过多头注意力模块得到多头注意力:
MH(Q,K,V)=[H1,H2,…,HG]WE (2)
将第一个注意力块中得到的上下文句子特征进行拼接,然后作为送入第二个注意力块中进行与第一个注意力块中相同的处理,这样,依次在M个注意力块进行处理,最后输出的上下文句子特征并作为上下文句子编码器输出上下文句子特征并表示为上下文句子特征集合
步骤S4:句子排序
编码完成后,本发明设计了一种创新性的非自回归解码器,因为句子排序任务可以解释为将无序句子匹配到正确的位置,所以采用位置信息作为非自回归解码器的输入,并行地预测每个位置的正确句子。
步骤S4.1:将离散位置投影嵌入为紧凑表示pi,每一维为:
其中,i表示位置的编号,pi,j紧凑表示pi中的第j维,得到N个位置的嵌入表示p1,p2,…,pN。
步骤S4.3:与现有的自回归方法需要初始化解码器隐层状态不同,该非自回归方法将所有上下文句子特征注入到解码器以获取位置与无序句子的相关性,进一步实现位置与句子之间的多头注意。即在多头互注意力机制中,使用位置查询上下文句子特征得到句子关于位置的注意力特征集合Ep:
步骤S4.4:在指针网络中,计算N个句子在位置i的概率分布Ptri:
Ptri=softmax(ωi) (9)
步骤S4.5:在概率分布Ptri中,最大一维对应维度句子序号,将对应句子放大位置i,这样完成句子的排序。
在本实施例中,对于句子排序网络通过最小化交叉熵损失函数来优化:
其中,oi是标签,是一个N维列向量,如果句子j位于位置i,oi的第j维的值为1,其他维的值为0,oi用来表示位置i正确对应的是句子j,log(Ptri)表示概率分布Ptri的N维概率取对数后构成的N维列向量。
实验验证
本发明提出的非自回归的句子排序方法可以有效地对句子进行编码,并行地解码预测每个位置的句子,进一步提升句子排序任务的速度和精度。为了评估本发明的性能,本发明将该构建句子排序网络应用于几个常用数据集,其中包括四个收集自AAN,NIPS,NSF,arXiv的学术论文摘要数据集,以及SIND,ROCStory两个视觉叙事和故事理解语料库。本发明采用完全匹配率(PMR),准确率(Acc)和τ度量来作为评价指标。完全匹配率(PMR)在段落级别上衡量句子位置预测的性能。准确率(Acc)计算句子级别的绝对位置预测的准确性,是更为宽松的度量指标。τ度量用于衡量预测段落中所有句子对之间的相对顺序,与人类的判断更相近,实验结果列在表1中。
表1
从表1的实验结果可以看出,非自回归的句子排序方法在大多数数据集上的性能几乎优于所有现有的方法,而且本专利在τ度量上的优越性意味着非自回归方式更接近人类。
由于句子的特殊位置,第一个和最后一个句子在句子排序中起着重要的作用,在arXiv和SIND数据集上进行评估首尾句子准确率的实验,结果列在表2中。
表2
从表2可以看出,本发明对首尾句子的预测优于现有的方法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种非自回归的句子排序方法,其特征在于,包括以下步骤:
(1)、构建句子排序网络
构建基本句子编码器、上下文句子编码器以及非自回归解码器,并组成句子排序网络,其中,非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成;
(2)、获得基本句子特征
(3)、获取上下文句子特征
所述的上下文句子编码器由M个注意力块构成,每个注意力块包括一个多头注意力模块以及一个前馈全连接层;
在上下文句子编码器的第一个注意力块中,首先,通过多头注意力模块得到多头注意力:
MH(Q,K,V)=[H1,H2,…,HG]WE
将第一个注意力块中得到的上下文句子特征进行拼接,然后作为送入第二个注意力块中进行与第一个注意力块中相同的处理,这样,依次在M个注意力块进行处理,最后输出的上下文句子特征并作为上下文句子编码器输出上下文句子特征并表示为上下文句子特征集合
(4)、句子排序
4.1)、将离散位置投影嵌入为紧凑表示pi,每一维为:
其中,i表示位置的编号,pi,j紧凑表示pi中的第j维,得到N个位置的嵌入表示p1,p2,…,pN;
4.3)、在多头互注意力机制中,使用位置查询上下文句子特征得到句子关于位置的注意力特征集合Ep:
4.4)、在指针网络中,计算N个句子在位置i的概率分布Ptri:
Ptri=softmax(ωi)
4.5)、在概率分布Ptri中,最大一维对应维度句子序号,将对应句子放大位置i,这样完成句子的排序。
3.根据权利要求1所述的非自回归的句子排序方法,其特征在于,采用BERT预训练模型作为基本句子编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648939.9A CN113378546B (zh) | 2021-06-10 | 2021-06-10 | 一种非自回归的句子排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648939.9A CN113378546B (zh) | 2021-06-10 | 2021-06-10 | 一种非自回归的句子排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378546A true CN113378546A (zh) | 2021-09-10 |
CN113378546B CN113378546B (zh) | 2022-06-14 |
Family
ID=77573700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648939.9A Active CN113378546B (zh) | 2021-06-10 | 2021-06-10 | 一种非自回归的句子排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378546B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN111984782A (zh) * | 2020-07-01 | 2020-11-24 | 中央民族大学 | 藏文文本摘要生成方法和系统 |
CN112015788A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 向目标用户展示目标对象序列的方法和装置 |
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
CN112487786A (zh) * | 2019-08-22 | 2021-03-12 | 创新工场(广州)人工智能研究有限公司 | 一种基于乱序重排的自然语言模型预训练方法及电子设备 |
CN112668304A (zh) * | 2020-11-02 | 2021-04-16 | 安阳师范学院 | 基于两个层次Bi-LSTM的汉语句子排序方法 |
-
2021
- 2021-06-10 CN CN202110648939.9A patent/CN113378546B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN112487786A (zh) * | 2019-08-22 | 2021-03-12 | 创新工场(广州)人工智能研究有限公司 | 一种基于乱序重排的自然语言模型预训练方法及电子设备 |
CN111984782A (zh) * | 2020-07-01 | 2020-11-24 | 中央民族大学 | 藏文文本摘要生成方法和系统 |
CN112015788A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 向目标用户展示目标对象序列的方法和装置 |
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
CN112668304A (zh) * | 2020-11-02 | 2021-04-16 | 安阳师范学院 | 基于两个层次Bi-LSTM的汉语句子排序方法 |
Non-Patent Citations (2)
Title |
---|
PAWAN KUMAR 等: "Deep Attentive Ranking Networks for Learning to Order Sentences", 《ARXIV:2001.00056V1》 * |
闫晓东 等: "基于子词级别词向量和指针网络的朝鲜语句子排序", 《第十九届中国计算语言学大会论文集》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114330279B (zh) * | 2021-12-29 | 2023-04-18 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113378546B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN109992648B (zh) | 基于词迁徙学习的深度文本匹配方法及装置 | |
CN112214599B (zh) | 基于统计学和预训练语言模型的多标签文本分类方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN111611377A (zh) | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN109409221A (zh) | 基于帧选择的视频内容描述方法和系统 | |
CN111105013B (zh) | 对抗网络架构的优化方法、图像描述生成方法和系统 | |
CN110188158B (zh) | 关键词及话题标签生成方法、装置、介质及电子设备 | |
CN111178036B (zh) | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN112579870A (zh) | 检索匹配模型的训练方法、装置、设备及存储介质 | |
CN112182167B (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN111985612A (zh) | 一种提高视频文本描述准确性的编码器网络模型设计方法 | |
CN116662488A (zh) | 业务文档检索方法、装置、设备及存储介质 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113378546B (zh) | 一种非自回归的句子排序方法 | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
CN114529917A (zh) | 一种零样本中文单字识别方法、系统、装置及存储介质 | |
CN113392214B (zh) | 基于k选择策略稀疏自注意力的文本分类方法及系统 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |