CN112541343B - 基于词对齐的半监督对抗学习跨语言摘要生成方法 - Google Patents
基于词对齐的半监督对抗学习跨语言摘要生成方法 Download PDFInfo
- Publication number
- CN112541343B CN112541343B CN202011408948.2A CN202011408948A CN112541343B CN 112541343 B CN112541343 B CN 112541343B CN 202011408948 A CN202011408948 A CN 202011408948A CN 112541343 B CN112541343 B CN 112541343B
- Authority
- CN
- China
- Prior art keywords
- abstract
- vector
- chinese
- language
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 118
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000013507 mapping Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 33
- 239000004576 sand Substances 0.000 claims description 10
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000013519 translation Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于词对齐的半监督对抗学习跨语言摘要生成方法,属于自然语言处理技术领域。本发明包括步骤:收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。本发明实现了跨语言摘要生成任务,优化了跨语言摘要的效果。
Description
技术领域
本发明涉及基于词对齐的半监督对抗学习跨语言摘要生成方法,属于自然语言处理技术领域。
背景技术
跨语言摘要生成是当前自然语言处理研究的热点问题。中越两国共同关注的问题日益增多,相关新闻报道也随之增多,利用跨语言摘要方法获取越南语新闻的文本摘要信息,对及时的了解两国针对重要事件发表的看法,促进两国共同发展具有重要意义。目前针对小语种的翻译技术尚未成熟,并且不同语言文本很难表示在同一特征空间下,获取跨语言新闻文本的摘要比较困难。因此,利用人工智能技术自动生成汉越双语新闻文本的摘要具有重要意义。
发明内容
本发明提供了基于词对齐的半监督对抗学习跨语言摘要生成方法,以用于解决同语言文本很难表示在同一特征空间下,如何利用同一空间下的文本表征进行跨语言摘要任务等问题,以及解决了实现跨语言摘要必须借助翻译,而翻译效果欠佳的问题。
本发明的技术方案是:基于词对齐的半监督对抗学习跨语言摘要生成方法,所述方法包括:
Step1、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。
作为本发明的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=‖Ws-t‖2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens:
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率即最小化
判别器Dist和生成器Gent同理可得:
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
作为本发明的进一步方案,所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
作为本发明的进一步方案,所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
作为本发明的进一步方案,所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
本发明的有益效果是:
1、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,利用双语词向量来表征汉越双语新闻文本,将汉语越南语的词都映射到同一语义空间中,在这个空间中语义相近的词向量距离相近,语义相关性低的词向量相隔较远;
2、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,使用预训练的越南Bert模型,能够较好的处理越南语新闻文本;
3、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,采用将双语映射任务和摘要生成任务联合学习的方法,降低了小语种因翻译效果不佳对跨语言摘要效果的影响;
4、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,实现了跨语言摘要生成任务,优化了跨语言摘要的效果。
附图说明
图1为本发明中的流程图;
图2为本发明中的双语词向量对抗训练模型图。
具体实施方式
实施例1:如图1-2所示,基于词对齐的半监督对抗学习跨语言摘要生成方法,所述方法包括:
Step1、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;从新浪微博中抽取的LCSTS数据,该语料主要是从新浪微博上整理的。每条语料均由两部分内容构成:短文本内容以及对应的参考摘要。而越南语语料则通过将以获取的LCSTS语料,然后借助谷歌翻译工具获取伪平行语料。其中训练集大约有20万对伪平行语料,测试及约有1000对伪平行语料。另外,还借助了互联网爬虫技术从中国新闻网、新华网、新浪新闻等国内新闻网站,以及越南每日快讯、越南经济日报,越南通讯社等越南新闻网站收集新闻,收集的数据包含新闻标题、正文详情、发布时间等信息。获得了约2000篇越南语新闻以及对应的10000篇中文可比语料。
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。
作为本发明的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明为文本生成跨语言摘要提供了数据支撑。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=‖Ws-t‖2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens:
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率即最小化
判别器Dist和生成器Gent同理可得:
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
此优选方案设计是本发明的重要组成部分,主要为本发明提模型与训练过程过程,为后续工作提供模型训练时所需摘要生成模型和双语词向量映射矩阵。并且为本发明识别事件时序关系提供了支撑和挖掘的对象。(结合其它步骤,它是一个数据输入,后面都会用得到);
作为本发明的进一步方案,所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
作为本发明的进一步方案,所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、词在句中的不同位置有不同的语义信息,将每个位置编号,每个编号对应一个向量,通过位置向量和汉越双语词向量的结合,为每个词引入一定的位置信息,注意力机制即可以分辨出不同位置的词;
Step3.2、将汉越双语词向量和位置向量的拼接作为Bert编码器的输入。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,结合双语词向量,并对每个词的位置进行编码有助于语义结构信息的获取,进而提升模型的性能。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
作为本发明的进一步方案,所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
本发明跨语言摘要生成网络包括由编码器和解码器构成的seq2seq摘要模型,以及实现汉越双语在同一个语义空间对齐的映射器和判别器。其中,左右两边的编码器分别为越南语和中文Bert编码器,经过Bert编码器得到两种语言文档向量表征Vs和Vt;mapping过程分别对编码器生成的向量进行线性映射处理,交由Dist和Diss鉴别向量是由编码器生成还是由映射得到;鉴别器无法判别的向量即为同一语义空间下的对齐向量,作为解码器的输入进行解码得到跨语言摘要。
所述Bert编码器:
为表示单个句子,文本由[CLS]这个标记作为开头,在每个句子末尾插入[SEP]标记,作为句子边界的表示。然后将预处理后的文本表示为一系列令牌X=[w1,w2,···wn]。另外,为了区分句子所在位置,本发明为每个句子分配EA或EB,这个取决于句子是奇数还是偶数。例如,对于文档X=[w1,w2,···wn],将分配分句嵌入由[EA,EB,…,EA]表示。这样就实现了,分层进行文档学习,较低层的输出表示相邻句子的信息,最高层的输出则包含整个文本的重要信息;
所述映射器和判别器:
假定源语言为越南语,目标语言为中文。本发明使用映射后的源语言嵌入借助双语词典寻找与之对应的和目标语言嵌入,计算二者之间的点积作为相似性度量,相当于余弦相似性。例如,中文中的「足球」和越南语中的在嵌入空间中距离非常近,因为它们在不同语言中代表着相同的意思。
1)分别将给定的源语言和目标语言使用word2vec进行单语词向量训练,分别得到越南语和中文的词向量:
其中m和n表示词表大小,d表示向量维度。
2)利用矩阵将嵌入投影到共同空间。即越南语词嵌入集合通过该映射函数转换后与目标语种的词嵌入很接近或者说重合。如果用一个有n=20000的双语词典由{Si,Ti}i∈(1,n)对构成,本发明需要选择投影矩阵W:
其中d是嵌入向量的维度,Md(R)是一个值为实数的d×d矩阵。S和T是需要对齐大小为d×n的词嵌入矩阵。假设源语言第i个单词与目标语言第j个单词对应,那么本发明的目标是寻找最佳的映射矩阵W,实现S和T之间的欧氏距离最短。
3)对来自越南语训练得到的向量集S应用映射函数f:
S′=f(S)=SW (3)
其中S′是映射后的向量集,W是映射矩阵。
4)将映射后的越南语向量和中文向量同时提交给对抗神经网络的判别器来预测每个单词的来源。直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
所述解码器:
使用了一个基于transformer的解码器作为摘要层。本发明在预训练阶段分别使用了一定量的单语语料训练摘要模型,经过单语预训练之后的模型,为进一步解码映射后的向量解码降低了难度。编码器部分输出的向量经过预训练得到的对抗神经网络处理实现由源语言和目标语言映射到共享语义空间下,由生成器生成的映射向量的词对齐,得到映射后的向量作为解码器的输入,解码输出得到最终的摘要。
进行跨语言摘要任务训练时,给定一对平行的源语言新闻文本和目标语言参考摘要对(x,y)。则其跨语言摘要的损失函数计算公式为:
为了验证本发明的效果,分别对模型摘要生成、结果双语映射生成跨语言摘要过程进行实验探究,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在汉越双语跨语言摘要生成上具有较好效果。
本文采用摘要任务中广泛使用的ROUGE分值作为评估指标,其工具包已被DUC和TAC等国际会议作为摘要体系的标准评价工具,用于预测生成文本和标准文本之间的接近程度。具体地说,摘要质量将依据模型预测生成的摘要与标准摘要的重叠单元进行量化计算,公式如下:
其中n代表n-gram的长度,Countmatch(n-gram)是模型生成摘要和人工书写的标准摘要中共同出现的n-gram的数量,公式旨在通过计算与参考摘要重叠的系统生成摘要中的n-gram的百分比来衡量系统生成摘要与参考摘要的匹配程度。本文将采用ROUGH评价指标N元共现统计ROUGH-1,ROUGH-2以及句子中最长公共子序列共现统计ROUGH-L,前者预定义n-gram的长度,后者使用最长公共子序列直接进行匹配,因此它自动包括最长的顺序共现,在一定程度上反映了句子结构信息。
为验证本专利提出的摘要方法的可行性,如表1所示,Vi/Zh_BertSum表示模型预训练阶段汉越单语下的摘要结果。
表1单语预训练Bert摘要实验结果
方法 | ROUGE-1 | ROUGE-2 | ROUGE-3 |
Vi_BertSum | 25.3 | 16.1 | 23.6 |
Zh_BertSum | 31.2 | 19.8 | 30.4 |
为了验证翻译效果对于稀缺资源文本摘要生成的影响,如表2所示,本发明设置两组基于管道翻译在同一数据集上的对比实验。VI-ZH CLS和ZH-VI CLS分别表示源语言为越南语或中文条件下的跨语言摘要对比实验。其中,Pipe_TS方法表示的是先进行原文本翻译,再进行单语摘要任务;Pipe_ST方法表示的是先进行单语摘要,再将生成摘要翻译的目标语言的结果;Ours即为本发明提出的基于词对齐的半监督对抗学习跨语言摘要生成方法。
表2不同摘要生成方法对比实验结果
实验数据表明,基于词对齐的半监督对抗学习跨语言摘要生成模型,将双语词向量映射到同一语义空间实现双语对齐的方法应用于跨语言摘要生成任务的有效性,能够有效改善跨语言摘要生成性能,ROUGE值在管道方法的实验结果上都有接近两个百分点的提升。其可能原因如下:(1)当前基于小语种的翻译技术尚未成熟,长篇幅的对文本进行翻译会造成信息损失,而在源语言上使用基于半监督对抗学习得到的映射矩阵能够在一定程度上保存文本信息;(2)半监督的对抗学习训练方式可能有助于获取文本摘要的高阶特征,这些特征可指导摘要生成中对原文中特定内容的选择。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于,所述方法包括:
Stepl、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要;
所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=||Ws-t||2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens:
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率即最小化
判别器Dist和生成器Gent同理可得:
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
2.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
3.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
4.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
5.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
6.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011408948.2A CN112541343B (zh) | 2020-12-03 | 2020-12-03 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011408948.2A CN112541343B (zh) | 2020-12-03 | 2020-12-03 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541343A CN112541343A (zh) | 2021-03-23 |
CN112541343B true CN112541343B (zh) | 2022-06-14 |
Family
ID=75015924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011408948.2A Active CN112541343B (zh) | 2020-12-03 | 2020-12-03 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541343B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076467A (zh) * | 2021-03-26 | 2021-07-06 | 昆明理工大学 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
CN113204961B (zh) * | 2021-05-31 | 2023-12-19 | 平安科技(深圳)有限公司 | 用于nlp任务的语言模型构建方法、装置、设备及介质 |
CN113361594B (zh) * | 2021-06-03 | 2023-10-20 | 安徽理工大学 | 一种基于生成模型的对抗样本生成方法 |
CN113626577B (zh) * | 2021-07-01 | 2022-11-01 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113743133B (zh) * | 2021-08-20 | 2023-10-17 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN113836896A (zh) * | 2021-08-31 | 2021-12-24 | 黑龙江阳光惠远信息技术有限公司 | 一种基于深度学习的专利文本摘要生成方法和装置 |
CN113920395A (zh) * | 2021-09-30 | 2022-01-11 | 北京熵简科技有限公司 | 一种面向少样本领域的轻量级半监督模型框架 |
CN114330474B (zh) * | 2021-10-20 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
CN114860920B (zh) * | 2022-04-20 | 2024-09-13 | 内蒙古工业大学 | 一种基于异构图的单语言主题摘要生成方法 |
CN114817682B (zh) * | 2022-05-09 | 2024-04-19 | 昆明理工大学 | 基于双重注意力解码网络的跨语言摘要方法 |
CN114996438B (zh) * | 2022-05-20 | 2024-05-28 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN114880461B (zh) * | 2022-06-02 | 2024-10-15 | 大连理工大学 | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 |
CN115048948B (zh) * | 2022-06-15 | 2024-04-19 | 昆明理工大学 | 融合主题关联图的越汉低资源跨语言摘要方法 |
CN116187324B (zh) * | 2023-04-28 | 2023-08-22 | 西湖大学 | 为源语言的长文本生成跨语言摘要的方法、系统及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733682A (zh) * | 2017-04-14 | 2018-11-02 | 华为技术有限公司 | 一种生成多文档摘要的方法及装置 |
CN109614480A (zh) * | 2018-11-26 | 2019-04-12 | 武汉大学 | 一种基于生成式对抗网络的自动摘要的生成方法及装置 |
CN110196903A (zh) * | 2019-05-06 | 2019-09-03 | 中国海洋大学 | 一种用于为文章生成摘要的方法及系统 |
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN111930930A (zh) * | 2020-07-10 | 2020-11-13 | 浙江大学 | 一种基于商品方面对齐的抽象式评论摘要生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915570B2 (en) * | 2019-03-26 | 2021-02-09 | Sri International | Personalized meeting summaries |
-
2020
- 2020-12-03 CN CN202011408948.2A patent/CN112541343B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733682A (zh) * | 2017-04-14 | 2018-11-02 | 华为技术有限公司 | 一种生成多文档摘要的方法及装置 |
CN109614480A (zh) * | 2018-11-26 | 2019-04-12 | 武汉大学 | 一种基于生成式对抗网络的自动摘要的生成方法及装置 |
CN110196903A (zh) * | 2019-05-06 | 2019-09-03 | 中国海洋大学 | 一种用于为文章生成摘要的方法及系统 |
CN110378409A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN111930930A (zh) * | 2020-07-10 | 2020-11-13 | 浙江大学 | 一种基于商品方面对齐的抽象式评论摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
Text summarization with pretrained encoders;Yang Liu 等;《https://arxiv.org/abs/1908.08345》;20190905;1-11 * |
使用词对齐半监督对抗学习的汉越跨语言摘要生成方法;王 剑 等;《https://kns.cnki.net/kcms/detail/21.1106.TP.20210516.1345.002.html》;20210517;1-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541343A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541343B (zh) | 基于词对齐的半监督对抗学习跨语言摘要生成方法 | |
Zahran et al. | Word representations in vector space and their applications for arabic | |
Jung | Semantic vector learning for natural language understanding | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110378409B (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN114911892A (zh) | 用于搜索、检索和排序的交互层神经网络 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
Heyman et al. | Bilingual lexicon induction by learning to combine word-level and character-level representations | |
CN112287695A (zh) | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 | |
Kaneko et al. | Interpretability for language learners using example-based grammatical error correction | |
Woodsend et al. | Text rewriting improves semantic role labeling | |
CN111814493B (zh) | 机器翻译方法、装置、电子设备和存储介质 | |
CN112580330B (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
Haider | Urdu word embeddings | |
Grégoire et al. | A deep neural network approach to parallel sentence extraction | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN114648024B (zh) | 基于多类型词信息引导的汉越跨语言摘要生成方法 | |
CN110516230B (zh) | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
Fernando et al. | Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages | |
CN110321568A (zh) | 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 | |
Feng et al. | Multi-level cross-lingual attentive neural architecture for low resource name tagging | |
Singh | niksss at Qur’an QA 2022: a heavily optimized BERT based model for answering questions from the Holy Qu’ran |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |