CN115048948B - 融合主题关联图的越汉低资源跨语言摘要方法 - Google Patents
融合主题关联图的越汉低资源跨语言摘要方法 Download PDFInfo
- Publication number
- CN115048948B CN115048948B CN202210671046.0A CN202210671046A CN115048948B CN 115048948 B CN115048948 B CN 115048948B CN 202210671046 A CN202210671046 A CN 202210671046A CN 115048948 B CN115048948 B CN 115048948B
- Authority
- CN
- China
- Prior art keywords
- cross
- language
- topic
- graph
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 title claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 16
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001727 in vivo Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- OWFJMIVZYSDULZ-PXOLEDIWSA-N (4s,4ar,5s,5ar,6s,12ar)-4-(dimethylamino)-1,5,6,10,11,12a-hexahydroxy-6-methyl-3,12-dioxo-4,4a,5,5a-tetrahydrotetracene-2-carboxamide Chemical compound C1=CC=C2[C@](O)(C)[C@H]3[C@H](O)[C@H]4[C@H](N(C)C)C(=O)C(C(N)=O)=C(O)[C@@]4(O)C(=O)C3=C(O)C2=C1O OWFJMIVZYSDULZ-PXOLEDIWSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种融合主题关联图的越汉低资源跨语言摘要方法,属于自然语言处理技术领域。本发明首先利用源语言文本获取文本主题词,基于越汉概率映射对将主题词进行映射从而构建主题关联图,然后通过图编码器、序列编码器,基于双编码器生成表示,最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要。本发明在越‑汉跨语言摘要数据集上进行了实验,实验证明了本发明模型的有效性和优越性。
Description
技术领域:
本发明涉及融合主题关联图的越汉低资源跨语言摘要方法,属于自然语言处理技术领域。
背景技术:
跨语言摘要任务旨在为给定的源语言文本生成目标语言的摘要。现有跨语言摘要方法大多依赖于大量的跨语言摘要数据。但是,越南语属于小语种,目前对于越南语等的机器翻译性能不尽人意的情况下获取大规模高质量的越汉跨语言摘要数据集非常困难。主题关联图是一种具有全局信息的文本结构,可以从文本全局的角度对文本信息进行凝练。从数据层面可以知道越汉互译的文本在主题结构上是一致的,因此通过获取源语言文本的主题结构信息引导摘要的生成,更有利于获得主题结构与源文本一致的摘要。由于缺乏大规模高质量的越汉跨语言摘要数据集,因此目前的越汉跨语言摘要模型会出现生成摘要主题性较差、对齐困难的问题。
针对低资源场景下语义对齐困难以及生成摘要主题不明确的问题,在跨语言摘要的研究过程中,还没有着重解决这个问题,在单语摘要研究中已经证明,生成信息丰富、主题明确且简洁的摘要,需要结构化的表示。目前主要的研究集中在单语摘要上。
图结构最开始使用在抽取式摘要中,即TextRank和LexRank;Wan等人提出了一个基于文档的图模型,将基于文档的信息、句子与文档之间的关系结合到图排序的过程中,将图排序方法结合到多文档摘要生成的过程中;Wang等人提出了一种基于异构图的摘要方法,其构造的异构图以词和句子为节点,基于GCN对其进行编码生成句子表示进行摘要;Dong等人提出了一种无监督的图排序模型,基于边界位置函数和基于文本结构的层次主题信息,将完全连通的句子图转化为层次图。
基于图的方法也更多的应用在生成式摘要中,Xu等人提出了文档级语法图卷积网络,使用门控图注意力机制将图与传统序列到序列模型进行结合;最近,Tan等人基于生成式摘要面临的问题在编码器框架中提出了新的基于图的注意力机制;Fernandes等人提出一种混合模型,基于GNN网络提出一个扩展序列编码器,在弱结构化数据中推理远距离关系,但是实体间的交互被忽略;Velickovic等人提出图注意力网络,基于图注意力机制计算每一个节点的邻近节点的注意力值来更新节点表示,并行化计算大大提升了训练速度,且独立于图结构,即不依赖于图结构信息,泛化能力强;然后,Fan等人对图注意力网络进行了改进,可以更有效地捕捉全局有效信息。为了解决基于图结构信息生成摘要的连贯及可读性问题,Yun等人提出了图变换网络(Graph Transformer Networks,GTN),基于此生成新的图结构,以端到端的方式学习图节点的表示;对于学习图表示Transformer也被证明是更适合的。Koncel-Kedziorski等人利用图注意力网络,结合Transformer提出了端到端的图到文本,结合知识图和标题摘要进行文本生成,获得了更优的效果;Huang等人提出基于文本序列编码器和图编码器双编码器进行全局表征和局部表征,对模型进行了改进。
以上研究证明了主题在摘要性能方面提升的重要性,尤其是基于图排序的摘要方法对摘要性能有更优秀的效果。但是目前这些方法主要集中在单语摘要上,针对跨语言摘要还缺乏类似的研究。综上所述,融合主题关联图的越汉低资源跨语言摘要研究是有意义的。
发明内容:
本发明提供了融合主题关联图的越汉低资源跨语言摘要方法,以用于解决越汉跨语言摘要模型中无法很好的学习到句子中的语义信息,导致生成的摘要主题不明确等问题。
本发明的技术方案是:融合主题关联图的越汉低资源跨语言摘要生成方法(Vietnamese-Chinese Low Resource Cross-language Summarization of fused withTopic Association Graphs,TAcls),所述融合主题关联图的越汉低资源跨语言摘要生成方法的具体步骤如下:
Step1.语料收集:利用基于模板的网络爬虫技术从互联网上爬取基于越南语的文章摘要数据集,并利用Google翻译获得对应的中文的文章摘要数据集。从而获得30万的越汉跨语言摘要数据集,并通过基于回译等自动化的方式进行筛选对齐,最终得到规模为10万的越汉跨语言摘要数据集;
Step2.语料预处理:对筛选后获得的10万越汉跨语言摘要数据集进行分词等预处理,利用fast-align工具及统计的思想获得越汉概率映射对,并基于源语言文本获取文本的主题词;
Step3.图映射构建及编码:在Step2的基础上,首先通过越汉概率映射对将基于越南语的主题词迁移到中文的语义空间中,以此作为主题关联图的节点。将连个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图G,引入图编码器,对主题关联图进行表征。
Step4.主题关联图的融入:在Step2、Step3的基础上,以序列到序列模型Transformer为框架,结合图编码器,对处理好的越汉跨语言摘要数据集进行训练,并得到训练好的融合主题关联图的越汉低资源跨语言摘要模型。利用测试集对训练好的模型进行测试,得到跨语言摘要结果并进行质量评估。
进一步地,所述Step2中,利用fast-align工具及统计的思想获得的越汉概率映射对作为外部映射词典,实现了缺少平行语料下的共享语义空间的构建。
进一步地,所述Step4中,基于序列到序列模型的Transformer框架,通过图编码器、序列编码器,基于双编码器生成表示,最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要。
进一步地,所述Step3中,构建主题关联图时,首先通过源语言文本获取全文的主题词,基于主题词作为节点,首先对节点进行编码,然后通过越汉概率映射词典,通过越汉概率映射机制,将基于源语言的主题词节点映射到目标语言;然后利用基于目标语言的主题词构造主题关联图;开始构造主题关联图时,将各个主题词作为主题关联图的节点,将每两个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图。
进一步地,所述Step3中,图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文。
进一步地,所述Step4中包括:
将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value,将多头自注意力机制输出的结果H作为Query;
然后,利用融合了主题关联图结构信息的表征Ak来指导源语言文本的解码,以序列编码器的输出作为下一个编解码注意力机制的Key、Value,上一层的输出作为Query;
然后,经残差连接归一化后,解码端输出结果。
本发明的有益效果是:在构建的越汉跨语言摘要数据集上对构建的模型进行实验,验证了本发明的有效性。本发明采用Google开源的Transformer框架作为模型基本框架,构建了一个融合主题关联图的越汉低资源跨语言摘要方法,实现摘要的抽取。本发明构建了越汉跨语言摘要数据集,基于Step2构建了越汉概率映射对、主题词,基于Step3构建了主题关联图,基于Step4构造了基于Transformer的跨语言摘要模型,与传统方法进行对比实验证明,越汉文本在主题结构上的一致性,在低资源情况下,通过获取源语言文本的主题词并映射至目标语言构成主题关联图指导摘要生成的方式,对越汉低资源跨语言摘要任务存在一定的性能提升,通过实验同样证明了越汉文本主体结构的一致性可以更好的指导摘要生成与原文本主题一致的摘要,也证明本文提出的方法对低资源跨语言摘要任务可能是更有效的。
附图说明:
图1是本发明提出的融合主题关联图的越汉低资源跨语言摘要的流程图;
图2是提出的融合主题关联图的越汉低资源跨语言摘要模型的原理图。
具体实施方式:
实施例1:如图1-2所示,融合主题关联图的越汉低资源跨语言摘要方法,具体步骤如下:
Step1.训练语料数据的收集与组织:
本发明通过基于模板的网络爬虫从互联网获取30万基于越南语的文章摘要数据集,利用Google翻译,将其翻译至汉语,通过基于自动化的方式进行筛选对齐获得10万的越汉跨语言摘要数据集,将其分为训练集、验证集和测试集,如表1所示:
表1:数据集统计结果
Step2.数据预处理:
在越汉的跨语言摘要任务上,汉语使用jieba分词工具进行分词,利用VnCoreNLP工具对越南语进行分词。跨语言摘要任务均在词级条件下进行,其中,越南语使用3万大小的词典,汉语使用1万大小的词典。
越汉双语词典的构建:本发明的主题词获取在源语言的语义空间下进行。为了对主题词信息进行融入,需要将其映射至目标语言的语义空间下。因此,本发明引用了越汉映射概率对。
越汉概率映射对的构建主要利用较高质量的越汉语料进行。其中,源语言输入序列为C=(c1,c2,...,cj),目标语言输入序列为V=(v1,v2,...,vr),j,r表示输入序列的长度,随输入文本的长度变化。
本发明利用fast_align方法,得到C,V对应的编码。本发明利用统计的方法,汉越映射概率对的计算方法如下:
根据汉越平行语料C,V以及双语对应的编码,得到一个映射对。即vr→cj表示一个映射对。如式(1)所示,得到每一个vr映射为cj的概率PMP。
Step3.图映射构建及编码
(1)主题关联图构建
为了从源语言文本中获取特征构建主题关联图,首先通过源语言文本获取全文的主题词,基于主题词作为节点,首先对节点进行编码,然后通过越汉概率映射词典,通过越汉概率映射机制,将基于源语言的主题词节点映射到目标语言。然后利用基于目标语言的主题词构造主题关联图。开始构造主题关联图时,本发明将各个主题词作为主题关联图的节点,将每两个主题词之间的相似度作为连接两个主题词之间的边。由此构建主题关联图G。
(2)图编码器
在主题关联图构建中,构造了主题关联图G:G=(V,E),其中V表示本发明构造主题关联图中节点vi的表示,E表示描述的有向边的邻接矩阵。
本发明将每个节点vi表示为作为嵌入的初始化,然后,将主题词通过越汉概率映射词典将源语言的主题关联图的节点映射至目标语言,即:
其中,vi为本发明构造的主题关联图中节点的表示,是每一个关键词对应的映射候选词,生成新的目标语言的主题关联图节点的表示/>
图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文,用每个节点邻居的加权平均来表示每个节点/>
其中,表示N个头的串联,产生与/>相同维数的向量,在本实验中,设置N为4,在实验中使用了两层GAT,/>表示在图G中节点/>的邻居节点,W*,n为训练参数。
Step4.主题关联图的融入
本发明采用传统的Transformer解码器结构,其输入为中文的摘要,即Y=(y1,y2,...,ym),经自注意力机制,得到待解码向量H=(h1,h2,h3,…,hm)。
为了将主题关联图信息特征融合至解码端指导摘要的生成,本发明将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value,将多头自注意力机制输出的结果H作为Query。其中编解码注意力机制的定义如下:
Ak=[ak,1,ak,2,ak,3,…,ak,h] (7)其中,为可学习的参数矩阵,h为多头注意力中头的数量。
然后,利用融合了主题关联图结构信息的表征Ak来指导源语言文本的解码,基于式(5)以及式(6),以序列编码器的输出Z=(z1,z2,…,zn)作为下一个编解码注意力机制的Key、Value,上一层的输出作为Query,即其输出为:
Rk=(rk,1,rk,2,rk,3,…,rk,h) (9)
然后,经残差连接归一化后,解码端输出的结果为:
Fk=LayuiNorm(Rk,Ak) (10)
Outputk=LayuiNorm(FFNk,Fk) (12)其中,W3,W4为可学习的参数矩阵,Relu(·)为激活函数,LayuiNorm(·)为层归一化函数。
本模型将主题关联图结构信息融合到Transformer解码端指导摘要的生成,因此损失函数如式所示:
针对融合主题关联图的越汉低资源跨语言摘要模型进行实验,验证本发明的有效性:
本发明所有实验均基于Transformer架构,采用Adam优化器,其中,β1=0.9,β2=0.98,ε=1e-9。在训练过程中使用的标签平滑率els=0.1。本发明采用的学习率lr=0.3,批次大小batch_size=2048,dropout=0.1。编码器和解码器层数、模型隐藏大小、前馈隐藏大小和头数分别为6、1024、2048和8。本发明设置编解码器词表大小分别为:越南语为3万,中文1万,未登录词使用<unk>来代替。本发明实验所构概率映射词典的大小根据词频设置为39311。本发明所有实验均在单个Nvidia RTX2070SUPER GPU上进行。
为了证明本发明融合主题关联图方法在越汉低资源跨语言摘要任务上的优势,将本发明模型与基准模型在越汉跨语言摘要数据集上进行了实验对比,表2中给出了本发明模型与基准模型在越汉跨语言摘要测试集上RG-1、RG-2、RG-L的对比结果。
表2融合主题关联图的模型实验结果
分析表2可知,本发明提出的模型在越汉跨语言摘要数据集上基于指标RG-1、RG-2和RG-L取得了不错的效果。本发明模型与基准模型NCLS相比,在指标RG-1、RG-2和RG-L上分别取得了0.36、0.23和0.18个百分点的提升。由于本发明方法为融合了主题结构图的跨语言摘要方法,相较于直接的端到端的基于Transformer的NCLS模型,在原本神经网络的基础上,融入了主题概率映射关联图,对摘要的主题信息进一步的进行了补充,由实验结果,本发明模型较TETran模型在指标RG-1、RG-2和RG-L上分别取得了1.79、1.46和0.92个百分点的提升;较TLTran模型在指标RG-1、RG-2和RG-L上分别取得了1.16、0.77和0.57个百分点的提升。由上说明了本发明所提融合主题关联图的低资源越汉跨语言摘要模型可以有效提高跨语言摘要模型的性能。
为了验证主题关联图节点数对模型性能的影响,给出了主题关联图节点数不同时,本发明模型在越汉跨语言摘要测试集上指标RG-1、RG-2和RG-L的比对结果。本发明分别选取关键词个数为0、3、5、8,设计了实验二:
表3主题关联图节点数对本发明模型的影响
分析表3可知,随着主题关联图节点数的不断增加,本发明模型在越汉跨语言摘要测试集上的指标RG-1、RG-2和RG-L不断增加,但是当节点数增加至5后,模型的性能达到了最好的结果,较不融入主题关联图时,其在指标RG-1、RG-2和RG-L上分别取得了0.36、0.23和0.18个百分点的提升,在主题节点数为3时,较本发明模型在各评价指标上分别取得了0.18、0.15、0.10个百分点的提升。通过分析实验结果,可以知道,主题关联图的融入取得了一定的效果,但是当在主题关联图中主题性不高的词过多时,即增加了一定的噪声,对模型有一定的影响。由上也说明了,本发明所提融入主题关联图的策略对于越汉跨语言摘要模型性能的提升有一定的影响,但是对于主题关联图的节点数需要更进一步的探究。
为了验证概率映射词典规模对模型性能的影响,本发明设计了实验三。其中,本发明在概率映射词典的大小上进行了相关实验。根据词频设置概率映射词典大小为25 087、36 368、39 311、42 399,表4中给出了本发明模型在越汉跨语言摘要测试集上RG-1、RG-2和RG-L的比对结果,其中覆盖率为概率映射词典对于关键词的覆盖程度。
表4概率映射词典规模对本发明模型的影响
分析表4可知,概率映射词典大小为39311时,本发明模型的性能是最好的。相较概率映射词典大小为25087、36368和42339时在指标RG-1、RG-2和RG-L上分别取得了4.03、2.61、3.06,1.10、0.90、0.27和-0.04、0.03、-0.20个百分点的提升。分析表4,概率映射词典的覆盖率对于主题映射后再来构建主题关联图的影响是较大的,在概率映射词典大小为39311较概率映射词典大小为25087时的结果,进一步证明了概率映射词典的大小对于模型的性能影响较大。综上,也进一步说明了概率映射词典这一策略在越汉跨语言摘要任务上的有效性,但是概率映射词典对于关键词的覆盖率在一定程度上影响了模型的性能。
为了进一步验证算法的有效性,本发明列举了不同模型的摘要结果,如表5所示。原文与标准摘要均来自越汉跨语言摘要数据集。本发明列举了所有基准模型的输出结果作为对比,为了便于理解,本发明给出了对应越南语的翻译结果。
表5不同模型生成摘要样例
分析表5可知,由源语言文本的译文可知,原文主要讲述了某机构发明有自毁功能的机器人帮助体内药物的输送。由于模型的现状,模型TETran表达了“某机构”“提供”“机器人”等信息,但是并没有对“体内”“搬运工”的文本主题进行表述;模型TLTran表达了“某机构”“科学家”“帮助”的信息,但是对于文本中表述的“体内”“机器人”“自毁”主题并没有进行展现;NCLS模型是表现较好的模型,在输出的摘要结果中,我们可以看到“某机构”“科学家”“药物”“研究”等信息,但是并没有表达出“体内”“搬运工”等文本想要表达的中心主题,且内容过于冗余,主题也出现了偏差;而本文模型,其主题信息为“帮助”“药物”“输送”等,在本文模型输出的结果中可以看到,对于“帮助药物输送”等中心主题有了相关表述,在不影响原有信息量的基础上,对文本主题结构进行映射融入,使输出的摘要结果在主题上与原文表达更加一致。
针对越汉低资源跨语言摘要,本发明在Transformer框架下,结合图编码器对主题概率映射关联图进行编码,基于双编码器的方法,提出融合主题关联图的越汉低资源跨语言摘要方法。通过实验证明,越汉文本在主题结构上的一致性,在低资源情况下,通过获取源语言文本的主题词并映射至目标语言构成主题关联图指导摘要生成的方式,对越汉低资源跨语言摘要任务存在一定的性能提升,通过实验同样证明了越汉文本主体结构的一致性可以更好的指导摘要生成与原文本主题一致的摘要,也证明本发明提出的方法对低资源跨语言摘要任务可能是更有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.融合主题关联图的越汉低资源跨语言摘要方法,其特征在于,所述方法的具体步骤如下:
Step1.语料收集:利用基于模板的网络爬虫技术从互联网上爬取基于越南语的文章摘要数据集,并获得对应的中文的文章摘要数据集;从而获得越汉跨语言摘要数据集,并进行筛选对齐,得到最终的越汉跨语言摘要数据集;
Step2.语料预处理:对筛选后获得的最终的越汉跨语言摘要数据集进行分词预处理,利用fast-align工具及统计的思想获得越汉概率映射对,并基于源语言文本获取文本的主题词;
Step3.图映射构建及编码:首先通过越汉概率映射对将基于越南语的主题词映射到汉语的语义空间中,以此作为主题关联图的节点;将两个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图,引入图编码器,对主题关联图进行表征;
Step4.主题关联图的融入:以序列到序列模型Transformer为框架,结合图编码器,对处理好的越汉跨语言摘要数据集进行训练,并得到训练好的融合主题关联图的越汉低资源跨语言摘要模型,利用测试集对训练好的模型进行测试,得到跨语言摘要结果并进行质量评估;
所述Step4中,基于序列到序列模型的Transformer框架,通过图编码器、序列编码器,基于双编码器生成表示,最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要;
所述Step3中,构建主题关联图时,首先通过源语言文本获取全文的主题词,基于主题词作为节点,首先对节点进行编码,然后通过越汉概率映射词典,通过越汉概率映射机制,将基于源语言的主题词节点映射到目标语言;然后利用基于目标语言的主题词构造主题关联图;开始构造主题关联图时,将各个主题词作为主题关联图的节点,将每两个主题词之间的相似度作为连接两个主题词之间的边,由此构建主题关联图;
所述Step3中,图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文;
所述Step4中包括:
将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value,将多头自注意力机制输出的结果H作为Query;
然后,利用融合了主题关联图结构信息的表征Ak来指导源语言文本的解码,以序列编码器的输出作为下一个编解码注意力机制的Key、Value,上一层的输出作为Query;
然后,经残差连接归一化后,解码端输出结果。
2.根据权利要求1所述的融合主题关联图的越汉低资源跨语言摘要方法,其特征在于,所述Step2中,利用fast-align工具及统计的思想获得的越汉概率映射对作为外部映射词典,实现了缺少平行语料下的共享语义空间的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210671046.0A CN115048948B (zh) | 2022-06-15 | 2022-06-15 | 融合主题关联图的越汉低资源跨语言摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210671046.0A CN115048948B (zh) | 2022-06-15 | 2022-06-15 | 融合主题关联图的越汉低资源跨语言摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115048948A CN115048948A (zh) | 2022-09-13 |
CN115048948B true CN115048948B (zh) | 2024-04-19 |
Family
ID=83161231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210671046.0A Active CN115048948B (zh) | 2022-06-15 | 2022-06-15 | 融合主题关联图的越汉低资源跨语言摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048948B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113705196A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 基于图神经网络的中文开放信息抽取方法和装置 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170158B2 (en) * | 2018-03-08 | 2021-11-09 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
-
2022
- 2022-06-15 CN CN202210671046.0A patent/CN115048948B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113705196A (zh) * | 2021-08-02 | 2021-11-26 | 清华大学 | 基于图神经网络的中文开放信息抽取方法和装置 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Non-Patent Citations (3)
Title |
---|
chinese-vietnamese news documents summarization based on feature-related attention mechanism;jinjuan Wu等;computer supported cooperative work and social computing;20191114;526-539 * |
基于词级关键信息引导的越-汉低资源跨语言摘要方法研究;李笑萌;中国优秀硕士学位论文全文数据库;20240201;1-66 * |
融合关键词概率映射的汉越低资源跨语言摘要;李笑萌等;厦门大学学报(自然科学版);20210511;1-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN115048948A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390103B (zh) | 基于双编码器的短文本自动摘要方法及系统 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
Zhang et al. | Exploiting temporal relationships in video moment localization with natural language | |
Xia | Research on statistical machine translation model based on deep neural network | |
CN113743133B (zh) | 融合词粒度概率映射信息的汉越跨语言摘要方法 | |
Zhao et al. | CFSRE: Context-aware based on frame-semantics for distantly supervised relation extraction | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
Tezcan et al. | Towards a better integration of fuzzy matches in neural machine translation through data augmentation | |
Heo et al. | Multimodal neural machine translation with weakly labeled images | |
Luo et al. | A thorough review of models, evaluation metrics, and datasets on image captioning | |
Shi et al. | Low-resource neural machine translation: Methods and trends | |
Arukgoda | Improving sinhala–tamil translation through deep learning techniques | |
Sun | Analysis of Chinese machine translation training based on deep learning technology | |
Zhang et al. | A method of constructing a fine-grained sentiment lexicon for the humanities computing of classical chinese poetry | |
CN115048948B (zh) | 融合主题关联图的越汉低资源跨语言摘要方法 | |
Nambiar et al. | Attention based abstractive summarization of malayalam document | |
Ma et al. | Chinese social media entity linking based on effective context with topic semantics | |
Hu et al. | An approach to automatic acquisition of translation templates based on phrase structure extraction and alignment | |
Seifossadat et al. | Stochastic Data-to-Text Generation Using Syntactic Dependency Information | |
Tan et al. | Towards Discourse-Aware Document-Level Neural Machine Translation. | |
España-Bonet et al. | Hybrid machine translation overview | |
Hu et al. | Exploring discourse structure in document-level machine translation | |
Zou | Analysis of Machine Translation and Post-Translation Editing Ability Using Semantic Information Entropy Technology | |
Ali | Artificial intelligence-enabled English translation system using unsupervised learning for wireless network | |
Li et al. | Character-based Joint Word Segmentation and Part-of-Speech Tagging for Tibetan Based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |