CN112541343A - 基于词对齐的半监督对抗学习跨语言摘要生成方法 - Google Patents

基于词对齐的半监督对抗学习跨语言摘要生成方法 Download PDF

Info

Publication number
CN112541343A
CN112541343A CN202011408948.2A CN202011408948A CN112541343A CN 112541343 A CN112541343 A CN 112541343A CN 202011408948 A CN202011408948 A CN 202011408948A CN 112541343 A CN112541343 A CN 112541343A
Authority
CN
China
Prior art keywords
abstract
vector
chinese
language
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011408948.2A
Other languages
English (en)
Other versions
CN112541343B (zh
Inventor
余正涛
张莹
黄于欣
高盛祥
郭军军
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011408948.2A priority Critical patent/CN112541343B/zh
Publication of CN112541343A publication Critical patent/CN112541343A/zh
Application granted granted Critical
Publication of CN112541343B publication Critical patent/CN112541343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于词对齐的半监督对抗学习跨语言摘要生成方法,属于自然语言处理技术领域。本发明包括步骤:收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。本发明实现了跨语言摘要生成任务,优化了跨语言摘要的效果。

Description

基于词对齐的半监督对抗学习跨语言摘要生成方法
技术领域
本发明涉及基于词对齐的半监督对抗学习跨语言摘要生成方法,属于自然语言处理技术领域。
背景技术
跨语言摘要生成是当前自然语言处理研究的热点问题。中越两国共同关注的问题日益增多,相关新闻报道也随之增多,利用跨语言摘要方法获取越南语新闻的文本摘要信息,对及时的了解两国针对重要事件发表的看法,促进两国共同发展具有重要意义。目前针对小语种的翻译技术尚未成熟,并且不同语言文本很难表示在同一特征空间下,获取跨语言新闻文本的摘要比较困难。因此,利用人工智能技术自动生成汉越双语新闻文本的摘要具有重要意义。
发明内容
本发明提供了基于词对齐的半监督对抗学习跨语言摘要生成方法,以用于解决同语言文本很难表示在同一特征空间下,如何利用同一空间下的文本表征进行跨语言摘要任务等问题,以及解决了实现跨语言摘要必须借助翻译,而翻译效果欠佳的问题。
本发明的技术方案是:基于词对齐的半监督对抗学习跨语言摘要生成方法,所述方法包括:
Step1、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。
作为本发明的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(1)、分别得到维基百科提供的越南语和中文的词向量集:
Figure BDA0002816181210000021
其中m和n表示词表大小,d表示嵌入向量的维度,S为越南语词向量集,T为中文词向量集;
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=‖Ws-t‖2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s
(3)联合训练阶段,用Bert编码器得到越南语和中文的词向量
Figure BDA0002816181210000022
Figure BDA0002816181210000023
来训练学习的映射矩阵
Figure BDA0002816181210000024
Figure BDA0002816181210000025
Figure BDA0002816181210000026
其中d是嵌入向量的维度,Md(R)是一个值为实数的d*d矩阵,Ws→t和Wt→s表示映射方向,目标是找到最佳映射矩阵
Figure BDA0002816181210000027
以使映射源嵌入
Figure BDA0002816181210000028
和目标语言嵌入
Figure BDA0002816181210000029
之间的平方欧几里得距离最小,矩阵
Figure BDA00028161812100000210
同理;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens
Figure BDA0002816181210000031
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率
Figure BDA0002816181210000032
即最小化
Figure BDA0002816181210000033
判别器Dist和生成器Gent同理可得:
Figure BDA0002816181210000034
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
作为本发明的进一步方案,所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
作为本发明的进一步方案,所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
作为本发明的进一步方案,所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
本发明的有益效果是:
1、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,利用双语词向量来表征汉越双语新闻文本,将汉语越南语的词都映射到同一语义空间中,在这个空间中语义相近的词向量距离相近,语义相关性低的词向量相隔较远;
2、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,使用预训练的越南Bert模型,能够较好的处理越南语新闻文本;
3、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,采用将双语映射任务和摘要生成任务联合学习的方法,降低了小语种因翻译效果不佳对跨语言摘要效果的影响;
4、本发明的基于词对齐的半监督对抗学习跨语言摘要生成方法,实现了跨语言摘要生成任务,优化了跨语言摘要的效果。
附图说明
图1为本发明中的流程图;
图2为本发明中的双语词向量对抗训练模型图。
具体实施方式
实施例1:如图1-2所示,基于词对齐的半监督对抗学习跨语言摘要生成方法,所述方法包括:
Step1、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;从新浪微博中抽取的LCSTS数据,该语料主要是从新浪微博上整理的。每条语料均由两部分内容构成:短文本内容以及对应的参考摘要。而越南语语料则通过将以获取的LCSTS语料,然后借助谷歌翻译工具获取伪平行语料。其中训练集大约有20万对伪平行语料,测试及约有1000对伪平行语料。另外,还借助了互联网爬虫技术从中国新闻网、新华网、新浪新闻等国内新闻网站,以及越南每日快讯、越南经济日报,越南通讯社等越南新闻网站收集新闻,收集的数据包含新闻标题、正文详情、发布时间等信息。获得了约2000篇越南语新闻以及对应的10000篇中文可比语料。
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。
作为本发明的进一步方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明为文本生成跨语言摘要提供了数据支撑。
作为本发明的进一步方案,所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(1)、分别得到维基百科提供的越南语和中文的词向量集:
Figure BDA0002816181210000051
其中m和n表示词表大小,d表示嵌入向量的维度,S为越南语词向量集,T为中文词向量集;
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=‖Ws-t‖2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s
(3)联合训练阶段,用Bert编码器得到越南语和中文的词向量
Figure BDA0002816181210000052
Figure BDA0002816181210000053
来训练学习的映射矩阵
Figure BDA0002816181210000057
Figure BDA0002816181210000055
Figure BDA0002816181210000056
其中d是嵌入向量的维度,Md(R)是一个值为实数的d*d矩阵,Ws→t和Wt→s表示映射方向,目标是找到最佳映射矩阵
Figure BDA0002816181210000061
以使映射源嵌入
Figure BDA0002816181210000062
和目标语言嵌入
Figure BDA0002816181210000063
之间的平方欧几里得距离最小,矩阵
Figure BDA0002816181210000064
同理;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens
Figure BDA0002816181210000065
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率
Figure BDA0002816181210000066
即最小化
Figure BDA0002816181210000067
判别器Dist和生成器Gent同理可得:
Figure BDA0002816181210000068
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
此优选方案设计是本发明的重要组成部分,主要为本发明提模型与训练过程过程,为后续工作提供模型训练时所需摘要生成模型和双语词向量映射矩阵。并且为本发明识别事件时序关系提供了支撑和挖掘的对象。(结合其它步骤,它是一个数据输入,后面都会用得到);
作为本发明的进一步方案,所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
作为本发明的进一步方案,所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、词在句中的不同位置有不同的语义信息,将每个位置编号,每个编号对应一个向量,通过位置向量和汉越双语词向量的结合,为每个词引入一定的位置信息,注意力机制即可以分辨出不同位置的词;
Step3.2、将汉越双语词向量和位置向量的拼接作为Bert编码器的输入。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,结合双语词向量,并对每个词的位置进行编码有助于语义结构信息的获取,进而提升模型的性能。
作为本发明的进一步方案,所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
作为本发明的进一步方案,所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
本发明跨语言摘要生成网络包括由编码器和解码器构成的seq2seq摘要模型,以及实现汉越双语在同一个语义空间对齐的映射器和判别器。其中,左右两边的编码器分别为越南语和中文Bert编码器,经过Bert编码器得到两种语言文档向量表征Vs和Vt;mapping过程分别对编码器生成的向量进行线性映射处理,交由Dist和Diss鉴别向量是由编码器生成还是由映射得到;鉴别器无法判别的向量即为同一语义空间下的对齐向量,作为解码器的输入进行解码得到跨语言摘要。
所述Bert编码器:
为表示单个句子,文本由[CLS]这个标记作为开头,在每个句子末尾插入[SEP]标记,作为句子边界的表示。然后将预处理后的文本表示为一系列令牌X=[w1,w2,···wn]。另外,为了区分句子所在位置,本发明为每个句子分配EA或EB,这个取决于句子是奇数还是偶数。例如,对于文档X=[w1,w2,···wn],将分配分句嵌入由[EA,EB,…,EA]表示。这样就实现了,分层进行文档学习,较低层的输出表示相邻句子的信息,最高层的输出则包含整个文本的重要信息;
所述映射器和判别器:
假定源语言为越南语,目标语言为中文。本发明使用映射后的源语言嵌入借助双语词典寻找与之对应的和目标语言嵌入,计算二者之间的点积作为相似性度量,相当于余弦相似性。例如,中文中的「足球」和越南语中的
Figure BDA0002816181210000071
在嵌入空间中距离非常近,因为它们在不同语言中代表着相同的意思。
1)分别将给定的源语言和目标语言使用word2vec进行单语词向量训练,分别得到越南语和中文的词向量:
Figure BDA0002816181210000081
其中m和n表示词表大小,d表示向量维度。
2)利用矩阵将嵌入投影到共同空间。即越南语词嵌入集合通过该映射函数转换后与目标语种的词嵌入很接近或者说重合。如果用一个有n=20000的双语词典由{Si,Ti}i∈(1,n)对构成,本发明需要选择投影矩阵W:
Figure BDA0002816181210000082
其中d是嵌入向量的维度,Md(R)是一个值为实数的d×d矩阵。S和T是需要对齐大小为d×n的词嵌入矩阵。假设源语言第i个单词与目标语言第j个单词对应,那么本发明的目标是寻找最佳的映射矩阵W,实现S和T之间的欧氏距离最短。
3)对来自越南语训练得到的向量集S应用映射函数f:
S′=f(S)=SW (3)
其中S′是映射后的向量集,W是映射矩阵。
4)将映射后的越南语向量和中文向量同时提交给对抗神经网络的判别器来预测每个单词的来源。直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
所述解码器:
使用了一个基于transformer的解码器作为摘要层。本发明在预训练阶段分别使用了一定量的单语语料训练摘要模型,经过单语预训练之后的模型,为进一步解码映射后的向量解码降低了难度。编码器部分输出的向量经过预训练得到的对抗神经网络处理实现由源语言和目标语言映射到共享语义空间下,由生成器生成的映射向量的词对齐,得到映射后的向量作为解码器的输入,解码输出得到最终的摘要。
进行单语训练时,给定一对平行的文本摘要对(x,s),本发明的目标是最大化decoder生成的摘要:
Figure BDA0002816181210000083
实验过程中进行最大对数似然率计算,其摘要损失值计算公式为:
Figure BDA0002816181210000084
其中,T是参考摘要的长度,
Figure BDA0002816181210000085
是解码生成的摘要,Vx是编码器对文本x的编码生成序列。
进行跨语言摘要任务训练时,给定一对平行的源语言新闻文本和目标语言参考摘要对(x,y)。则其跨语言摘要的损失函数计算公式为:
Figure BDA0002816181210000086
其中,
Figure BDA0002816181210000091
是由映射后的向量解码生成的摘要。
为了验证本发明的效果,分别对模型摘要生成、结果双语映射生成跨语言摘要过程进行实验探究,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在汉越双语跨语言摘要生成上具有较好效果。
本文采用摘要任务中广泛使用的ROUGE分值作为评估指标,其工具包已被DUC和TAC等国际会议作为摘要体系的标准评价工具,用于预测生成文本和标准文本之间的接近程度。具体地说,摘要质量将依据模型预测生成的摘要与标准摘要的重叠单元进行量化计算,公式如下:
Figure BDA0002816181210000092
其中n代表n-gram的长度,Countmatch(n-gram)是模型生成摘要和人工书写的标准摘要中共同出现的n-gram的数量,公式旨在通过计算与参考摘要重叠的系统生成摘要中的n-gram的百分比来衡量系统生成摘要与参考摘要的匹配程度。本文将采用ROUGH评价指标N元共现统计ROUGH-1,ROUGH-2以及句子中最长公共子序列共现统计ROUGH-L,前者预定义n-gram的长度,后者使用最长公共子序列直接进行匹配,因此它自动包括最长的顺序共现,在一定程度上反映了句子结构信息。
为验证本专利提出的摘要方法的可行性,如表1所示,Vi/Zh_BertSum表示模型预训练阶段汉越单语下的摘要结果。
表1单语预训练Bert摘要实验结果
方法 ROUGE-1 ROUGE-2 ROUGE-3
Vi_BertSum 25.3 16.1 23.6
Zh_BertSum 31.2 19.8 30.4
为了验证翻译效果对于稀缺资源文本摘要生成的影响,如表2所示,本发明设置两组基于管道翻译在同一数据集上的对比实验。VI-ZH CLS和ZH-VI CLS分别表示源语言为越南语或中文条件下的跨语言摘要对比实验。其中,Pipe_TS方法表示的是先进行原文本翻译,再进行单语摘要任务;Pipe_ST方法表示的是先进行单语摘要,再将生成摘要翻译的目标语言的结果;Ours即为本发明提出的基于词对齐的半监督对抗学习跨语言摘要生成方法。
表2不同摘要生成方法对比实验结果
Figure BDA0002816181210000101
实验数据表明,基于词对齐的半监督对抗学习跨语言摘要生成模型,将双语词向量映射到同一语义空间实现双语对齐的方法应用于跨语言摘要生成任务的有效性,能够有效改善跨语言摘要生成性能,ROUGE值在管道方法的实验结果上都有接近两个百分点的提升。其可能原因如下:(1)当前基于小语种的翻译技术尚未成熟,长篇幅的对文本进行翻译会造成信息损失,而在源语言上使用基于半监督对抗学习得到的映射矩阵能够在一定程度上保存文本信息;(2)半监督的对抗学习训练方式可能有助于获取文本摘要的高阶特征,这些特征可指导摘要生成中对原文中特定内容的选择。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于,所述方法包括:
Step1、收集用于训练汉越跨语言摘要生成的新闻文本,以及获取已有的汉越双语词向量;
Step2、利用汉越新闻文本和汉越双语词向量分别进行单语摘要模型和半监督对抗学习的预训练;
Step3、利用Bert编码器分别对输入的汉越伪平行语料进行向量表征;
Step4、利用编码器获得的向量结合汉越双语种子词典进行半监督对抗学习,获取映射到同一语义空间的向量;
Step5、把映射在同一语义空间下的上下文文本向量和参考摘要作为transformer解码器的输入,解码输出目标语言摘要。
2.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据,以及从维基百科获取已经训练好的汉越双语词向量。
3.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、首先使用一定数量的越南语和中文新闻文本语料,分别进行两种语言的单语摘要模型训练,摘要生成模型均采用Bert摘要模型,经过单语预训练得到的摘要模型;
Step2.2、利用维基百科提供的汉越双语词向量,进行半监督对抗学习方法如下:
(1)、分别得到维基百科提供的越南语和中文的词向量集:
Figure FDA0002816181200000011
其中m和n表示词表大小,d表示嵌入向量的维度,S为越南语词向量集,T为中文词向量集;
(2)、预训练阶段,首先利用包含L=30,000的{si,ti}i∈(1,2,…,L)汉越双语种子词典,训练映射矩阵W:
Ω=‖Ws-t‖2
其中,s为双语词典的源语言,t为对应的目标语言,Ω表示正则器,用于强制表达式两边的相等性,使用随机梯度下降学习W,然后通过最小化经过W转换的源语言单词si的向量表征与双语词典中的目标语言ti之间的平方欧氏距离,来实现双语词向量在同一语义空间下的映射对齐;假设源语言词s为越南语,目标语言t为中文,则由越南语映射到中文的映射矩阵为Ws→t,同理可得中文映射到越南文的矩阵为Wt→s
(3)联合训练阶段,用Bert编码器得到越南语和中文的词向量
Figure FDA0002816181200000021
Figure FDA0002816181200000022
来训练学习的映射矩阵
Figure FDA0002816181200000023
Figure FDA0002816181200000024
Figure FDA0002816181200000025
其中d是嵌入向量的维度,Md(R)是一个值为实数的d*d矩阵,Ws→t和Wt→s表示映射方向,目标是找到最佳映射矩阵
Figure FDA0002816181200000026
以使映射源嵌入
Figure FDA0002816181200000027
和目标语言嵌入
Figure FDA0002816181200000028
之间的平方欧几里得距离最小,矩阵
Figure FDA0002816181200000029
同理;
(4)最后,将生成器生成的映射后的越南语向量和中文向量同时提交给判别器来预测每个单词的来源,来优化判别器Diss和Gens
Figure FDA00028161812000000210
对于判别器Diss而言,看作是一个二分类问题,即一个形式为Ds:s→{0,1}的函数,真实样本对应为1,映射样本对应为0,V(D,G)为二分类问题中常见的交叉熵损失,对于生成器Gens而言,为了尽可能欺骗判别器,所以需要最大化目标语言向量的判别概率
Figure FDA00028161812000000211
即最小化
Figure FDA00028161812000000212
判别器Dist和生成器Gent同理可得:
Figure FDA00028161812000000213
训练时,生成器和判别器采取交替训练,即先训练Diss和Dist,然后训练Gens和Gent,不断往复,直到判别器无法识别词的来源则表示双语词向量位于一个公共语义空间。
4.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step2中:利用汉语和越南语新闻文本进行单语摘要模型训练会得到汉语和越南语两种摘要生成模型;利用汉越双语词向量和双语词典进行对抗学习得到实现将源语言映射到目标语言空间的映射矩阵W。
5.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step3中:将汉越新闻伪平行语料作为摘要模型的输入,分别得到由Bert编码器生成的上下文文本向量。
6.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、从汉越伪平行语料的参考摘要数据源构建一个汉越种子词典;
Step4.2、对Bert编码器生成的上下文文本向量表征应用映射矩阵W和种子词典进行半监督对抗学习得到汉越双语在同一语义空间下的对齐向量。
7.根据权利要求1所述的基于词对齐的半监督对抗学习跨语言摘要生成方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、将经过对抗性学习训练后在同一语义空间下的对齐向量和参考摘要作为transformer解码器的输入;
Step5.2、解码端根据映射后的对齐向量与参考摘要之间的对数似然率来选取候选摘要;
Step5.3、解码器解码输出目标语言摘要。
CN202011408948.2A 2020-12-03 2020-12-03 基于词对齐的半监督对抗学习跨语言摘要生成方法 Active CN112541343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011408948.2A CN112541343B (zh) 2020-12-03 2020-12-03 基于词对齐的半监督对抗学习跨语言摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011408948.2A CN112541343B (zh) 2020-12-03 2020-12-03 基于词对齐的半监督对抗学习跨语言摘要生成方法

Publications (2)

Publication Number Publication Date
CN112541343A true CN112541343A (zh) 2021-03-23
CN112541343B CN112541343B (zh) 2022-06-14

Family

ID=75015924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011408948.2A Active CN112541343B (zh) 2020-12-03 2020-12-03 基于词对齐的半监督对抗学习跨语言摘要生成方法

Country Status (1)

Country Link
CN (1) CN112541343B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN113204961A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 用于nlp任务的语言模型构建方法、装置、设备及介质
CN113361594A (zh) * 2021-06-03 2021-09-07 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113626577A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113836896A (zh) * 2021-08-31 2021-12-24 黑龙江阳光惠远信息技术有限公司 一种基于深度学习的专利文本摘要生成方法和装置
CN113920395A (zh) * 2021-09-30 2022-01-11 北京熵简科技有限公司 一种面向少样本领域的轻量级半监督模型框架
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114817682A (zh) * 2022-05-09 2022-07-29 昆明理工大学 基于双重注意力解码网络的跨语言摘要方法
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN114996438A (zh) * 2022-05-20 2022-09-02 昆明理工大学 一种多策略强化学习的汉越跨语言摘要生成方法
CN115048948A (zh) * 2022-06-15 2022-09-13 昆明理工大学 融合主题关联图的越汉低资源跨语言摘要方法
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN109614480A (zh) * 2018-11-26 2019-04-12 武汉大学 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN110196903A (zh) * 2019-05-06 2019-09-03 中国海洋大学 一种用于为文章生成摘要的方法及系统
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
US20200311122A1 (en) * 2019-03-26 2020-10-01 Sri International Personalized meeting summaries
CN111930930A (zh) * 2020-07-10 2020-11-13 浙江大学 一种基于商品方面对齐的抽象式评论摘要生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN109614480A (zh) * 2018-11-26 2019-04-12 武汉大学 一种基于生成式对抗网络的自动摘要的生成方法及装置
US20200311122A1 (en) * 2019-03-26 2020-10-01 Sri International Personalized meeting summaries
CN110196903A (zh) * 2019-05-06 2019-09-03 中国海洋大学 一种用于为文章生成摘要的方法及系统
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111930930A (zh) * 2020-07-10 2020-11-13 浙江大学 一种基于商品方面对齐的抽象式评论摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG LIU 等: "Text summarization with pretrained encoders", 《HTTPS://ARXIV.ORG/ABS/1908.08345》 *
王 剑 等: "使用词对齐半监督对抗学习的汉越跨语言摘要生成方法", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/21.1106.TP.20210516.1345.002.HTML》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN113204961A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 用于nlp任务的语言模型构建方法、装置、设备及介质
CN113204961B (zh) * 2021-05-31 2023-12-19 平安科技(深圳)有限公司 用于nlp任务的语言模型构建方法、装置、设备及介质
CN113361594A (zh) * 2021-06-03 2021-09-07 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113361594B (zh) * 2021-06-03 2023-10-20 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113626577A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN113743133B (zh) * 2021-08-20 2023-10-17 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113836896A (zh) * 2021-08-31 2021-12-24 黑龙江阳光惠远信息技术有限公司 一种基于深度学习的专利文本摘要生成方法和装置
CN113920395A (zh) * 2021-09-30 2022-01-11 北京熵简科技有限公司 一种面向少样本领域的轻量级半监督模型框架
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114860920B (zh) * 2022-04-20 2024-09-13 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN114817682B (zh) * 2022-05-09 2024-04-19 昆明理工大学 基于双重注意力解码网络的跨语言摘要方法
CN114817682A (zh) * 2022-05-09 2022-07-29 昆明理工大学 基于双重注意力解码网络的跨语言摘要方法
CN114996438A (zh) * 2022-05-20 2022-09-02 昆明理工大学 一种多策略强化学习的汉越跨语言摘要生成方法
CN114996438B (zh) * 2022-05-20 2024-05-28 昆明理工大学 一种多策略强化学习的汉越跨语言摘要生成方法
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN115048948A (zh) * 2022-06-15 2022-09-13 昆明理工大学 融合主题关联图的越汉低资源跨语言摘要方法
CN115048948B (zh) * 2022-06-15 2024-04-19 昆明理工大学 融合主题关联图的越汉低资源跨语言摘要方法
CN116187324B (zh) * 2023-04-28 2023-08-22 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质

Also Published As

Publication number Publication date
CN112541343B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
Guo et al. Effective parallel corpus mining using bilingual sentence embeddings
Jung Semantic vector learning for natural language understanding
Zahran et al. Word representations in vector space and their applications for arabic
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Schmaltz et al. Adapting sequence models for sentence correction
CN114911892A (zh) 用于搜索、检索和排序的交互层神经网络
CN113743133B (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
Heyman et al. Bilingual lexicon induction by learning to combine word-level and character-level representations
Woodsend et al. Text rewriting improves semantic role labeling
Kaneko et al. Interpretability for language learners using example-based grammatical error correction
CN111814493B (zh) 机器翻译方法、装置、电子设备和存储介质
CN112580330B (zh) 基于中文触发词指导的越南语新闻事件检测方法
Song et al. Toward any-language zero-shot topic classification of textual documents
El-Kishky et al. Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance
CN114648024B (zh) 基于多类型词信息引导的汉越跨语言摘要生成方法
CN110516230B (zh) 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110321568B (zh) 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
Rapp et al. Recent advances in machine translation using comparable corpora
Fernando et al. Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages
Tsai et al. Learning better name translation for cross-lingual wikification
Tennage et al. Handling rare word problem using synthetic training data for sinhala and tamil neural machine translation
Feng et al. Multi-level cross-lingual attentive neural architecture for low resource name tagging
CN106776590A (zh) 一种获取词条译文的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant