CN113743133A - 融合词粒度概率映射信息的汉越跨语言摘要方法 - Google Patents
融合词粒度概率映射信息的汉越跨语言摘要方法 Download PDFInfo
- Publication number
- CN113743133A CN113743133A CN202110958255.9A CN202110958255A CN113743133A CN 113743133 A CN113743133 A CN 113743133A CN 202110958255 A CN202110958255 A CN 202110958255A CN 113743133 A CN113743133 A CN 113743133A
- Authority
- CN
- China
- Prior art keywords
- chinese
- language
- word
- probability
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 18
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法,属于自然语言处理技术领域。本发明包括步骤:语料收集;对收集的语料进行分词预处理;并利用fast‑align工具及统计的思想获得汉越概率映射对;并采用编解码注意力机制,以此获取基于汉语文章摘要的关键词;概率映射机制的构建;词级概率映射信息的融入;本发明对汉越词粒度的信息和其篇章级的文本进行表征;其次,基于注意力机制对词粒度的信息和篇章级文本进行联合表征;最后,通过融合词粒度的对齐信息到目标语言的摘要,提高摘要的准确性。本发明在汉‑越跨语言摘要数据集上进行了实验,实验证明了本发明的有效性和优越性。
Description
技术领域
本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法,属于自然语言处理技术领域。
背景技术
文本自动摘要旨在从给定的长文本中生成简短的摘要。目前主流的摘要任务只针对一种语言,而跨语言摘要旨在为给定的一篇源语言文章生成另一种语言的摘要。 目前,虽然汉越跨语言摘要篇章级标注数据稀缺,但是其词级对齐数据是比较丰富 的。又因为中文与越南语的语序不同,导致其语义难以对齐,需要大量的标记数据 来训练。在低资源语言环境下,由于平行数据稀缺,导致跨语言摘要模型在学习时 无法很好的学习到句子中的语义信息,导致摘要结果出现信息表达不完整、信息表 达不准确等问题。
针对以上问题,现有的解决思路主要有基于机器翻译的方法,以及词级映射的 方法。大多数的跨语言摘要是基于机器翻译开展的,它可以大致分为三类。一是端 到端的跨语言摘要方法。Zhu等人提出了基于Transformer框架的多任务摘要方法, 该方法的主要贡献是利用循回翻译获得大规模的高质量汉英跨语言摘要数据集,但 它仍依赖于大规模的数据才能获得较好的结果。二是利用“教师”-“学生”网络的跨语 言摘要方法。Ayana等人提出利用“教师”-“学生”框架,在没有直接的源语言文章和 目标语言标题语料的情况下,基于预先训练的神经网络机器翻译模型及单语摘要模 型,指导无平行语料学生模型的参数学习,这样的方法需要大量的语料训练机器翻 译模型,并增加了训练时间。三是预训练的跨语言摘要方法。Xu等人提出了基于 Transformer的混合语言预训练方法,该方法利用跨语言任务(如翻译)和单语任务 模型(如mask语言模型),利用大量单语数据增强其语言模型的建模能力,是目前 研究的一个新方向。但是,目前基于机器翻译的方法大都需要大量标记的平行语料, 对于低资源的汉越跨语言摘要任务效果较差。
基于词级映射的跨语言摘要方法。传统的跨语言摘要方法是构建双语词典,将 作为输入的源语言文本和目标语言的参考摘要通过双语词典映射至同一语义空间, 然后在进行摘要。但是使用双语对齐词典等词级映射的方法,不仅没有解决跨语言 的问题,还增加了训练的时间。Cao等人提出在理解不同语言语义的同时总结摘要的 方法,该方法基于Transformer框架,利用对抗的方法,解决了两种语言之间的语义 鸿沟的问题。但是由于缺乏大量对齐的跨语言数据集,对抗的方法不能取得很好的 效果。对于跨语言文本摘要,使用词级映射,不能有效的关注到关键信息,不利于 指导摘要的生成。因此,使用词级映射对于低资源的汉越跨语言文本摘要任务是不 可取的。
发明内容
本发明提供了融合词粒度概率映射信息的汉越跨语言摘要方法,以用于解决汉越跨语言摘要方法及其模型中无法很好的学习到句子中的语义信息,导致摘要结果 出现信息表达不完整、信息表达不准确等问题。
本发明的技术方案是:融合词粒度概率映射信息的汉越跨语言摘要方法(Chinese-Vietnamese Bilingual Text Summarization Based on Mappping of Word-grained Probability,C-Vbts),所述融合词粒度概率映射信息的汉越跨语言摘要 方法的具体步骤如下:
Step1、语料收集:获取汉越文章摘要数据对、汉英文章摘要数据对;
Step2、语料预训练:对收集的语料进行分词预处理;并利用fast-align工具及统计的思想获得汉越概率映射对;并采用编解码注意力机制,以此获取基于汉语文章 摘要的关键词;
Step3、概率映射机制的构建:首先获得篇章级文本及目标语言关键词的联合表征,引入Step2中获得的汉越概率映射对,将基于汉越的关键词通过汉越概率映射对 迁移到越南语的语义空间中;
Step4、词级概率映射信息的融入:以序列到序列模型Transformer为框架,结合指针网络,对汉越跨语言摘要数据集进行训练,并得到训练好的融合词粒度概率映 射信息的汉越跨语言摘要模型,利用测试集对训练好的模型进行测试,得到跨语言 摘要结果并进行质量评估。
作为本发明的进一步方案,所述Step1包括:
从互联网中爬取基于汉语的文章摘要数据集,并利用google翻译获得基于越南语的文章摘要数据集、基于英语的文章摘要数据集,进而获得30万个汉越文章摘要 数据对及30万个汉英文章摘要数据对,通过人工筛选对齐得到10万个汉越文章摘 要数据对及10万个汉英文章摘要数据对。
作为本发明的进一步方案,所述Step2中,对收集的语料进行分词预处理包括:
汉语使用结巴分词工具进行分词,利用VnCoreNLP工具对越南语进行分词,英 语使用原有的词级结构。
作为本发明的进一步方案,所述Step2中,并利用fast-align工具及统计的思想获得汉越概率映射对包括:
(1)、利用fast-align工具得到源语言输入序列C=(c1,c2,...,cj)、目标语言输入序列V=(v1,v2,...,vr)对应的编码;其中,j,r分别表示源语言、目标语言输入序列 的长度,随输入文本的长度变化;
(2)、利用统计的方法汉越概率映射对的计算方法如下:
根据汉越平行语料源语言输入序列C、目标语言输入序列V以及双语对应的编 码,得到一个映射对;其中,vr→cj表示一个映射对,如式(1)所示,得到每一个 vr映射为cj的概率PMP:
作为本发明的进一步方案,所述Step3包括:
获得篇章级文本及目标语言关键词的联合表征;
给定一组跨语言数据D:D=(X,Y,G),其中X为源语言文本输入序列,即 X=(x1,x2,...,xn),Y为目标语言参考摘要输入序列,即Y=(y1,y2,...,ym),G为关键 词输入序列,即G=(g1,g2,...,gq),n,m,q跟随源序列长度变化,n>m≥q;
对输入序列进行词嵌入,并通过公式(2)及公式(3)进行位置编码:
其中,pos表示每个词在输入序列中的位置信息,dmodel表示词向量维度,i表示词向量的位置;
编码器由一个编解码注意力模块以及一个前馈神经网络构成;其中编解码注意力模块采用多头注意力机制,每个头对应一个点积注意力机制,由查询(Q),键(K) 和值(V)组成:
其中dk是键(K)的维度;
编解码注意力模块的输出通过前馈神经网络得到最终值:
headi=Attention(QWi Q,KWi K,VWi V) (5)
MultiHead(Q,K,V)=Concat(head1,head2,...,headh) (6)
其中,Wi Q,Wi K,Wi V是学习参数矩阵,h是头的数量;
编码端输入的源语言文本和关键词通过编码器分别得到输出的隐状态Z: Z=(z1,z2,...,zn)和S:S=(s1,s2,...,sq);
将编码器的输出的隐状态Z和S作为输入,将每一个关键词的表征s1作为查询, 将编码器输出的源语言文本的隐藏序列Z作为键和值,从而得到每一个关键词对于 源语言文本的注意力得分,如式(7)所示:
概率映射机制的构建:
为了将关键词映射到目标语言,使用概率映射机制,利用概率映射机制,计算出每一个关键词对应其汉越映射概率对的映射概率,如式(8)所示:
作为本发明的进一步方案,所述Step4包括:
使用O作为解码器在时间步t下的隐藏状态,计算了时间步t下的生成概率Pgen, 其中Pgen∈(0,1);如式(9)所示:
Pgen=δ(W2(W1O+b1)+b2) (9)
其中,是学习矩阵,b2∈R是偏置向量,dmodel表示此时隐藏状态的维度,δ是sigmoid函数;其中,Pgen被用作一个软开关, 用于选择从篇章级的解码端生成一个单词,或者选择从关键词中复制一个单词,那 么,生成一个单词的概率如式(10)所示:
其中,PT(ωsrc→ω)表示关键词ωsrc映射到词ω的概率大小,PN(ω)表示解码端生成的词ω的概率大小;
由于结合了指针网络将词粒度映射概率信息融合到了Transformer框架中,因此损失函数如式(11)所示:
Loss=-[εlog(pt)+(1-ε)log(1-pt)] (11)
其中,pt表示在t时刻预测结果正确的概率,ε为超参数。
所述Step2中,并采用编解码注意力机制,以此获取基于汉语文章摘要的关键词包括:
利用一个编解码注意力机制,计算每一个关键词对于源语言文本摘要的注意力得分,取其注意力得分的前q个作为输入本发明所述方法对应的模型C-Vbts的关键 词。
所述Step2中,利用fast-align工具及统计的思想构建的汉越概率映射对作为外部映射词典,实现了缺少平行语料下的共享语义空间的构建。
所述Step3中,利用概率映射机制,构建目标语言语义空间下的关键信息。
所述Step4中,基于序列到序列模型的Transformer框架,引用了两个编码器, 构建概率映射机制,并加入了指针生成网络,得到融合词粒度概率映射信息的神经 网络。
针对汉越、汉英可比语料数据集对所构建的模型进行实验,验证本发明的有效行。本发明采用谷歌开源的Transformer模型作为模型基本框架,构造了一个融合词 粒度概率映射信息的汉越跨语言摘要方法,实现摘要的抽取。基于Step1构造的汉越、 汉英可比语料,基于Step2构造的汉越概率映射对、关键词,基于Step3构造的概率 映射机制,基于Step4构造的基于Transformer的跨语言摘要模型,与传统方法做对 比实验获得结论。
本发明的有益效果是:本发明提高了摘要的准确性,且在汉-越跨语言摘要数据集上进行了实验,实验证明了本发明的有效性和优越性。
附图说明
图1是本发明提出的融合词粒度概率映射信息的汉越跨语言摘要方法的流程图;
图2是提出的融合词粒度概率映射信息的汉越跨语言摘要方法模型的原理图;
图3是统计信息注意力机制的原理图;
图4是概率映射机制的原理图。
具体实施方式
实施例1:如图1-4所示,融合词粒度概率映射信息的汉越跨语言摘要方法,所 述融合词粒度概率映射信息的汉越跨语言摘要方法的具体步骤如下:
Step1、语料收集:获取汉越文章摘要数据对、汉英文章摘要数据对;
作为本发明的进一步方案,所述Step1包括:
从互联网中爬取基于汉语的文章摘要数据集,并利用google翻译将其翻译至越南语以及英语,获得基于越南语的文章摘要数据集、基于英语的文章摘要数据集, 进而获得30万个汉越文章摘要数据对及30万个汉英文章摘要数据对,通过人工筛 选对齐得到10万个汉越文章摘要数据对及10万个汉英文章摘要数据对。分为训练 集、验证集和测试集,如表1所示:
表1数据集
Step2、语料预训练:对收集的语料进行分词预处理;并利用fast-align工具及统计的思想获得汉越概率映射对;并采用编解码注意力机制,以此获取基于汉语文章 摘要的关键词;
作为本发明的进一步方案,所述Step2中,对收集的语料进行分词预处理包括:
在汉越的跨语言摘要任务上,汉语使用结巴分词工具进行分词,利用VnCoreNLP工具对越南语进行分词。在汉英的跨语言摘要任务上,汉语使用结巴分词工具进行 分词,英语使用原有的词级结构。跨语言摘要任务均在词级条件下进行,其中,汉 语使用10万大小的词典,越南语及英语使用1万大小的词典。
汉越双语词典的构建:本发明的统计信息解码在源语言的语义空间下进行。为 了对词粒度信息进行融入,需要将其映射至目标语言的语义空间下。因此,本发明 提出了汉越映射概率对。
汉越映射概率对的构建主要利用较高质量的汉越平行语料进行。
作为本发明的进一步方案,所述Step2中,并利用fast-align工具及统计的思想获得汉越概率映射对包括:
(1)、利用fast-align工具得到源语言输入序列C=(c1,c2,...,cj)、目标语言输入序列V=(v1,v2,...,vr)对应的编码;其中,j,r分别表示源语言、目标语言输入序列 的长度,随输入文本的长度变化;本发明利用fast_align方法,得到C,V对应的编 码;
(2)、利用统计的方法汉越概率映射对的计算方法如下:
根据汉越平行语料源语言输入序列C、目标语言输入序列V以及双语对应的编 码,得到一个映射对;其中,vr→cj表示一个映射对,如式(1)所示,得到每一个 vr映射为cj的概率PMP:
关键词的选择:
本文选择输入文本中与参考摘要重复的词,且包括了文本中重要的信息,本文 将这些词统称为统计信息,其中融入摘要中的词称之为关键词。使用这些词来指导 跨语言摘要的生成,会在语义信息上进一步提高摘要的质量,并且关键词的融入, 无需使用大规模的语料即可取得较高质量的摘要。
本发明利用一个编解码注意力机制,计算每一个关键词对于源语言文本摘要的注意力得分,取其注意力得分的前q个作为输入C-Vbts的关键词。
Step3、概率映射机制的构建:首先获得篇章级文本及目标语言关键词的联合表征,引入Step2中获得的汉越概率映射对,将基于汉越的关键词通过汉越概率映射对 迁移到越南语的语义空间中;
作为本发明的进一步方案,所述Step3包括:
获得篇章级文本及目标语言关键词的联合表征;
给定一组跨语言数据D:D=(X,Y,G),其中X为源语言文本输入序列,即X=(x1,x2,...,xn),Y为目标语言参考摘要输入序列,即Y=(y1,y2,...,ym),G为关键 词输入序列,即G=(g1,g2,...,gq),n,m,q跟随源序列长度变化,n>m≥q;
对输入序列进行词嵌入,并通过公式(2)及公式(3)进行位置编码:
其中,pos表示每个词在输入序列中的位置信息,dmodel表示词向量维度,i表示词向量的位置;
编码器由一个编解码注意力模块以及一个前馈神经网络构成;其中编解码注意力模块采用多头注意力机制,每个头对应一个点积注意力机制,由查询(Q),键(K) 和值(V)组成:
其中dk是键(K)的维度;
编解码注意力模块的输出通过前馈神经网络得到最终值:
headi=Attention(QWi Q,KWi K,VWi V) (5)
MultiHead(Q,K,V)=Concat(head1,head2,...,headh) (6)
其中,Wi Q,Wi K,Wi V是学习参数矩阵,h是头的数量;
编码端输入的源语言文本和关键词通过编码器分别得到输出的隐状态Z: Z=(z1,z2,...,zn)和S:S=(s1,s2,..,sq);
将编码器的输出的隐状态Z和S作为输入,将每一个关键词的表征s1作为查询, 将编码器输出的源语言文本的隐藏序列Z作为键和值,如图3所示,从而得到每一 个关键词对于源语言文本的注意力得分,如式(7)所示:
概率映射机制的构建:
为了将关键词映射到目标语言,使用概率映射机制,如图4所示,利用概率映射 机制,计算出每一个关键词对应其汉越映射概率对的映射概率,如式(8)所示:
Step4、词级概率映射信息的融入:以序列到序列模型Transformer为框架,结合指针网络,对汉越跨语言摘要数据集进行训练,并得到训练好的融合词粒度概率映 射信息的汉越跨语言摘要模型,利用测试集对训练好的模型进行测试,得到跨语言 摘要结果并进行质量评估。
篇章级解码端的输入是编码端的输出以及(t-1)时刻解码端的输出。与编码端相比,增加了一个编解码注意力模块,并在其中加入了mask修饰,因为训练时的输出 都是真实值,这样可以确保预测p位置时不会预知到未来的信息。解码端的输出是 对应p位置时,输出词的概率分布。
本发明利用Oriol Vinyals等人提出的指针网络,通过指针从源文本复制单词,它允许通过指针复制单词,并从固定的词汇中生成单词。
作为本发明的进一步方案,所述Step4包括:
使用O作为解码器在时间步t下的隐藏状态,计算了时间步t下的生成概率Pgen, 其中Pgen∈(0,1);如式(9)所示:
Pgen=δ(W2(W1O+b1)+b2) (9)
其中,是学习矩阵,b2∈R是偏置向量,dmodel表示此时隐藏状态的维度,δ是sigmoid函数;其中,Pgen被用作一个软开关, 用于选择从篇章级的解码端生成一个单词,或者选择从关键词中复制一个单词,那 么,生成一个单词的概率如式(10)所示:
其中,PT(ωsrc→ω)表示关键词ωsrc映射到词ω的概率大小,PN(ω)表示解码端生成的词ω的概率大小;
由于结合了指针网络将词粒度映射概率信息融合到了Transformer框架中,因此损失函数如式(11)所示:
Loss=-[εlog(pt)+(1-ε)log(1-pt)] (11)
其中,pt表示在t时刻预测结果正确的概率,ε为超参数。
Step5、针对融合词粒度概率映射信息的汉越跨语言摘要方法进行实验,验证本发明的有效性:
首先对实验所需参数进行设置,本发明所有实验均基于Transformer架构,其中进行了8000个warm-up进行优化,采用Adam优化器,其中,β1=0.9,β2=0.998, ε=1e-9。在训练过程中使用的标签平滑率els=0.1。在验证时使用波束大小为4且 长度罚分α=0.6的波束搜索。本发明采用的学习率lr=0.3,批次大小 batch_size=2048,dropout=0.1,编码器和解码器层数、模型隐藏大小、前馈隐藏 大小和头数分别为6、1024、2048和8,统计信息注意力机制、概率映射机制的头数 均为8。本发明设置编解码器词表大小分别为:中文100k,英文、越南语均为10k, 未登录词使用UNK来代替。本发明所有实验均在单个NvidiaRTX 2070SUPER GPU 上进行。
为了验证本发明提出的汉越跨语言摘要方法对应模型在不同基准模型上的效果对比,本发明选择GLTran、GETran、NCLS 3个模型作为基准模型。设计了实验一,
表2汉越跨语言摘要测试集在不同基准模型上实验结果的F1值(q=5)
实验结果如表2所示。本发明的模型在汉越跨语言摘要数据集上取得了相较其 他模型更优的性能。这也证明了将基于词粒度统计信息注意力机制以及概率映射机 制引入解码过程是有效的。C-Vbts模型与基准模型相比,本发明提出的C-Vbts模型 较次优模型GLTran在指标RG-1、RG-2和RG-L上分别取得了1.1、0.07、1.51的提 升。C-Vbts相比于使用Transformer直接生成摘要的基准模型NCLS,取得了3.85、 0.89、2.83的提升,证明了有引导性信息的融入相比直接利用模型生成摘要的策略更 有效。另外从表3还可以看出,C-Vbts模型相较基准模型GLTran模型和GETran模 型在指标RG-L的F1值上分别取得了1.51、4.71的性能提升。因此,从实验结果可 以看出,本发明提出的融入融入词粒度概率映射信息指导摘要生成的策略是有效的。 此外,从C-Vbts模型与基准模型NCLS的实验结果可以看出,有引导性的信息融入 是有效的,减少了信息损失。
为了验证关键词的融入对模型性能的影响,本发明分别选取关键词个数为0、1、2、5,设计了实验二:
表3关键词个数对C-Vbts模型的影响
从实验结果可以看出,在汉越跨语言摘要数据集上,本发明提出的融入统计信 息的策略包含词粒度信息较多的模型取得了更优的性能。
为了验证词级概率映射、指针网络对模型性能的影响,本发明设计了实验三。 其中,C-Vbts模型是本发明实现的带有词级映射以及指针网络的模型,C-Vbts-MP 模型是在C-Vbts模型的基础上减少了词级映射的模型,C-Vbts-PN模型是在C-Vbts 模型的基础上减少了指针网络的模型。
表4词级映射、指针网络对C-Vbts模型的影响
从实验结果可以看出,C-Vbts-MP的策略没有对统计信息进行映射,在q=5的 情况下进行实验,它的性能是最差的,证明了本发明提出的概率映射机制对于模型 性能的提升是有效的。C-Vbts-PN的策略与本发明模型C-Vbts相比,减少了指针网 络,、可以看到其F1的值较C-Vbts相差较大。分析其原因是没有指针网络的加入, 会导致重复词的出现,影响摘要的性能,证明了使用指针网络、的必要性。因此, 本发明模型利用词粒度信息的概率映射及联合指针网络的策略是有效的。
为了验证本发明所提出模型的泛化性。本发明设计了实验四,在汉英跨语言摘 要测试集上与基准模型进行对比。
表5汉英跨语言摘要测试集在不同基准模型上实验结果的F1值
从实验结果中可以看出,本发明提出的融入词粒度概率映射信息指导摘要生成的策略在中-英跨语言摘要数据集上取得了相较其他模型更优的性能。但是观察表2、 表5,可以看到同样数量级的数据在同样的基准模型上,在不同的数据集上取得了不 同的效果。在汉英跨语言摘要数据集上较汉越跨语言摘要数据集上取得的F1的分数 是较低的。本发明认为,原因在于实验设置时,越南语和英文构造的词典均为1万, 根据越南语和英文文本构造特点,越南语词典对于测试集文本的覆盖率高于英文词 典对于测试集文本的覆盖率,即汉越跨语言摘要的实验结果没有大量未登录词UNK 的出现,提高了摘要的准确性。但是,依然可以从实验结果看出,本发明提出的引 入具有引导性的词粒度概率映射信息的策略对于中-英跨语言摘要任务是有效的,也 证明了本发明对应方法所提模型的泛化性。
通过实验可以发现,本发明基于Transformer框架提出的融合词粒度概率映射信息的策略是有效的,且有一定的优越性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。
Claims (6)
1.融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述融合词粒度概率映射信息的汉越跨语言摘要方法的具体步骤如下:
Step1、语料收集:获取汉越文章摘要数据对、汉英文章摘要数据对;
Step2、语料预训练:对收集的语料进行分词预处理;并利用fast-align工具及统计的思想获得汉越概率映射对;并采用编解码注意力机制,以此获取基于汉语文章摘要的关键词;
Step3、概率映射机制的构建:首先获得篇章级文本及目标语言关键词的联合表征,引入Step2中获得的汉越概率映射对,将基于汉越的关键词通过汉越概率映射对迁移到越南语的语义空间中;
Step4、词级概率映射信息的融入:以序列到序列模型Transformer为框架,结合指针网络,对汉越跨语言摘要数据集进行训练,并得到训练好的融合词粒度概率映射信息的汉越跨语言摘要模型,利用测试集对训练好的模型进行测试,得到跨语言摘要结果并进行质量评估。
2.根据权利要求1所述的融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述Step1包括:
从互联网中爬取基于汉语的文章摘要数据集,并利用google翻译获得基于越南语的文章摘要数据集、基于英语的文章摘要数据集,进而获得30万个汉越文章摘要数据对及30万个汉英文章摘要数据对,通过人工筛选对齐得到10万个汉越文章摘要数据对及10万个汉英文章摘要数据对。
3.根据权利要求1所述的融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述Step2中,对收集的语料进行分词预处理包括:
汉语使用结巴分词工具进行分词,利用VnCoreNLP工具对越南语进行分词,英语使用原有的词级结构。
4.根据权利要求1所述的融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述Step2中,并利用fast-align工具及统计的思想获得汉越概率映射对包括:
(1)、利用fast-align工具得到源语言输入序列C=(c1,c2,...,cj)、目标语言输入序列V=(v1,v2,...,vr)对应的编码;其中,j,r分别表示源语言、目标语言输入序列的长度,随输入文本的长度变化;
(2)、利用统计的方法汉越概率映射对的计算方法如下:
根据汉越平行语料源语言输入序列C、目标语言输入序列V以及双语对应的编码,得到一个映射对;其中,vr→cj表示一个映射对,如式(1)所示,得到每一个vr映射为cj的概率PMP:
5.根据权利要求1所述的融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述Step3包括:
获得篇章级文本及目标语言关键词的联合表征;
给定一组跨语言数据D:D=(X,Y,G),其中X为源语言文本输入序列,即X=(x1,x2,...,xn),Y为目标语言参考摘要输入序列,即Y=(y1,y2,...,ym),G为关键词输入序列,即G=(g1,g2,...,gq),n,m,q跟随源序列长度变化,n>m≥q;
对输入序列进行词嵌入,并通过公式(2)及公式(3)进行位置编码:
其中,pos表示每个词在输入序列中的位置信息,dmodel表示词向量维度,i表示词向量的位置;
编码器由一个编解码注意力模块以及一个前馈神经网络构成;其中编解码注意力模块采用多头注意力机制,每个头对应一个点积注意力机制,由查询(Q),键(K)和值(V)组成:
其中dk是键(K)的维度;
编解码注意力模块的输出通过前馈神经网络得到最终值:
headi=Attention(QWi Q,KWi K,VWi V) (5)
MultiHead(Q,K,V)=Concat(head1,head2,...,headh) (6)
其中,Wi Q,Wi K,Wi V是学习参数矩阵,h是头的数量;
编码端输入的源语言文本和关键词通过编码器分别得到输出的隐状态Z:Z=(z1,z2,...,zn)和S:S=(s1,s2,..,sq);
将编码器的输出的隐状态Z和S作为输入,将每一个关键词的表征s1作为查询,将编码器输出的源语言文本的隐藏序列Z作为键和值,从而得到每一个关键词对于源语言文本的注意力得分,如式(7)所示:
概率映射机制的构建:
为了将关键词映射到目标语言,使用概率映射机制,利用概率映射机制,计算出每一个关键词对应其汉越映射概率对的映射概率,如式(8)所示:
6.根据权利要求1所述的融合词粒度概率映射信息的汉越跨语言摘要方法,其特征在于:所述Step4包括:
使用O作为解码器在时间步t下的隐藏状态,计算了时间步t下的生成概率Pgen,其中Pgen∈(0,1);如式(9)所示:
Pgen=δ(W2(W1O+b1)+b2) (9)
其中,是学习矩阵,b2∈R是偏置向量,dmodel表示此时隐藏状态的维度,δ是sigmoid函数;其中,Pgen被用作一个软开关,用于选择从篇章级的解码端生成一个单词,或者选择从关键词中复制一个单词,那么,生成一个单词的概率如式(10)所示:
其中,PT(ωsrc→ω)表示关键词ωsrc映射到词ω的概率大小,PN(ω)表示解码端生成的词ω的概率大小;
由于结合了指针网络将词粒度映射概率信息融合到了Transformer框架中,因此损失函数如式(11)所示:
Loss=-[εlog(pt)+(1-ε)log(1-pt)] (11)
其中,pt表示在t时刻预测结果正确的概率,ε为超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110958255.9A CN113743133B (zh) | 2021-08-20 | 2021-08-20 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110958255.9A CN113743133B (zh) | 2021-08-20 | 2021-08-20 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743133A true CN113743133A (zh) | 2021-12-03 |
CN113743133B CN113743133B (zh) | 2023-10-17 |
Family
ID=78731931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110958255.9A Active CN113743133B (zh) | 2021-08-20 | 2021-08-20 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743133B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595700A (zh) * | 2021-12-20 | 2022-06-07 | 昆明理工大学 | 融合零代词与篇章信息的汉越神经机器翻译方法 |
CN114860920A (zh) * | 2022-04-20 | 2022-08-05 | 内蒙古工业大学 | 一种基于异构图的单语言主题摘要生成方法 |
CN114996438A (zh) * | 2022-05-20 | 2022-09-02 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN115017883A (zh) * | 2021-12-20 | 2022-09-06 | 昆明理工大学 | 基于预训练融合语音特征的文本标点恢复方法 |
CN115048948A (zh) * | 2022-06-15 | 2022-09-13 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
-
2021
- 2021-08-20 CN CN202110958255.9A patent/CN113743133B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
Non-Patent Citations (1)
Title |
---|
张亚飞 等: "基于词性软模板注意力机制的短文本自动摘要方法", 《模式识别与人工智能》, vol. 33, no. 6, pages 551 - 558 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595700A (zh) * | 2021-12-20 | 2022-06-07 | 昆明理工大学 | 融合零代词与篇章信息的汉越神经机器翻译方法 |
CN115017883A (zh) * | 2021-12-20 | 2022-09-06 | 昆明理工大学 | 基于预训练融合语音特征的文本标点恢复方法 |
CN114860920A (zh) * | 2022-04-20 | 2022-08-05 | 内蒙古工业大学 | 一种基于异构图的单语言主题摘要生成方法 |
CN114996438A (zh) * | 2022-05-20 | 2022-09-02 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN114996438B (zh) * | 2022-05-20 | 2024-05-28 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN115048948A (zh) * | 2022-06-15 | 2022-09-13 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
CN115048948B (zh) * | 2022-06-15 | 2024-04-19 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743133B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113743133B (zh) | 融合词粒度概率映射信息的汉越跨语言摘要方法 | |
Bakhtin et al. | Real or fake? learning to discriminate machine from human generated text | |
Yang et al. | Unsupervised text style transfer using language models as discriminators | |
Lee et al. | Fully character-level neural machine translation without explicit segmentation | |
Zhang et al. | Syntax-enhanced neural machine translation with syntax-aware word representations | |
Kwiatkowski et al. | Lexical generalization in CCG grammar induction for semantic parsing | |
CN113343683B (zh) | 一种融合自编码器和对抗训练的中文新词发现方法及装置 | |
Wang et al. | A comprehensive survey of grammar error correction | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
Yao et al. | Domain transfer based data augmentation for neural query translation | |
Chen et al. | Sheffield at e2e: structured prediction approaches to end-to-end language generation | |
Mi et al. | Improving adversarial neural machine translation for morphologically rich language | |
Zhang | Deep learning classification model for English translation styles introducing attention mechanism | |
Li et al. | Unifying model explainability and robustness for joint text classification and rationale extraction | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Lo et al. | Cool English: A grammatical error correction system based on large learner corpora | |
Xue et al. | Robust neural machine translation with asr errors | |
Chang et al. | A corpus-based statistics-oriented transfer and generation model for machine translation | |
Septarina et al. | Machine translation of Indonesian: a review | |
Li et al. | Explicit syntactic guidance for neural text generation | |
Xiong et al. | Pinyin-to-Chinese conversion on sentence-level for domain-specific applications using self-attention model | |
Huang et al. | Improving Word Alignment by Adding Gromov-Wasserstein into Attention Neural Network | |
Deng | Bitext alignment for statistical machine translation | |
Alissa et al. | Text simplification using transformer and BERT | |
Abka et al. | Transformer-based Cross-Lingual Summarization using Multilingual Word Embeddings for English-Bahasa Indonesia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |