CN115455175A - 基于多语言模型的跨语言摘要生成方法和装置 - Google Patents

基于多语言模型的跨语言摘要生成方法和装置 Download PDF

Info

Publication number
CN115455175A
CN115455175A CN202210966889.3A CN202210966889A CN115455175A CN 115455175 A CN115455175 A CN 115455175A CN 202210966889 A CN202210966889 A CN 202210966889A CN 115455175 A CN115455175 A CN 115455175A
Authority
CN
China
Prior art keywords
language
data
text
model
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210966889.3A
Other languages
English (en)
Inventor
孙梦阳
李天健
杜政晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202210966889.3A priority Critical patent/CN115455175A/zh
Publication of CN115455175A publication Critical patent/CN115455175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出了一种基于多语言模型的跨语言摘要生成方法,涉及跨语言摘要生成技术领域,其中,该方法包括:获取多语言文本数据;基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。本申请实现了跨语言摘要生成,能够生成不同语言的摘要,同时能够提炼总结文本大意,提高了摘要的精度。

Description

基于多语言模型的跨语言摘要生成方法和装置
技术领域
本申请涉及跨语言摘要生成技术领域,尤其涉及一种基于多语言模型的跨语言摘要生成方法和装置。
背景技术
近年来,在互联网文本上预训练的大规模语言模型大大提高了各种自然语言处理(Natural Language Processing,NLP)任务的最新技术水平。比如在英文维基百科上训练的BERT模型,提出时在各种自然语言理解的排行榜上取得了第一名的成绩,在某些任务上甚至取得了10%以上的提升。BERT提出后,形形色色对BERT的改进工作得到发布。Meta(Facebook)提出的RoBERTa针对BERT提出了参数上和训练目标上的改良。2019年谷歌的T5模型首先达到了百亿参数的规模,在多个领域取得了最佳的性能。2020年OpenAI发布的GPT-3模型将预训练语言模型的参数提高到了千亿级别,并且展示了惊人的小样本学习能力,在某些任务上只需要少至32条标注数据即可达到BERT模型在大量数据上训练才能达到的性能。同时,在互联网文本上预训练的大语言模型都各自提出了自己的多语言版本。首先是BERT的多语言版mBERT,采用和BERT相同的模型并在104中语言的维基百科上进行训练。并在句子分类,实体标注和阅读理解等下游任务中表现优秀。Meta提出了RoBERTa的多语言版本XLM-R,首次考虑到了英语和其他语言训练语料的不均衡并使用采样。谷歌提出的T5多语言版本mT5,在对高频语言(英语)采样的同时提出了一系列针对模型语言迁移学习能力的改良。但是,谷歌提出的MT5与Meta提出的XLM-R多语言模型均没有实现跨语言摘要功能。
现存跨语言摘要生成技术非常复杂,模型需要学习先不跨语言生成摘要再进行翻译。并且生成的摘要为原文的重复,没有提炼并用更简单的方式总结文章的主旨大意,生成摘要的精度差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于多语言模型的跨语言摘要生成方法,解决了现有方法无法完成跨语言摘要任务,只能先生成摘要再进行翻译且生成的摘要精度差的技术问题,通过对通用语言模型进行自回归填空预训练,得到多语言模型,基于多语言模型实现跨语言摘要生成,能够根据文本数据生成不同语言的摘要,同时能够提炼总结文本大意,提高了摘要的精度。
本申请的第二个目的在于提出一种基于多语言模型的跨语言摘要生成装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于多语言模型的跨语言摘要生成方法,包括:获取多语言文本数据;基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。
可选地,在本申请的一个实施例中,在获取多语言文本数据之后,包括:
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
可选地,在本申请的一个实施例中,基于多语言文本数据对通用语言模型进行预训练,得到多语言模型,包括:
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言模型。
可选地,在本申请的一个实施例中,方法,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言模型。
可选地,在本申请的一个实施例中,通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标,包括:
通过将每个片段的长度从均值为3的泊松分布中采样,总的片段长度为原始序列长度的第一预设比例,生成适应自然语言理解的分类任务的预训练目标;
通过使每个片段是文本序列中一个完整的句子,总的片段长度为原始文本序列长度的第二预设比例,生成适应条件文本生成的任务的预训练目标;
通过在一个文本序列中只采样一个片段,使片段长度为原始文本序列长度的第三预设比例,生成适应长文本生成的任务的预训练目标。
可选地,在本申请的一个实施例中,多语言摘要数据包括不同语言的原文数据和摘要数据,获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型,包括:
将不同语言的原文数据和摘要数据作为训练数据,使用基于提示的微调对多语言模型进行训练,得到多语言摘要生成模型。
为达上述目的,本申请第二方面实施例提出了一种基于多语言模型的跨语言摘要生成装置,包括:
获取模块,用于获取多语言文本数据;
预训练模块,用于基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;
训练模块,用于获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;
生成模块,用于获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。
可选地,在本申请的一个实施例中,在获取多语言文本数据之后,包括:
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于多语言模型的跨语言摘要生成方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种基于多语言模型的跨语言摘要生成方法。
本申请实施例的基于多语言模型的跨语言摘要生成方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有方法无法完成跨语言摘要任务,只能先生成摘要再进行翻译且生成的摘要精度差的技术问题,通过对通用语言模型进行自回归填空预训练,得到多语言模型,基于多语言模型实现跨语言摘要生成,能够根据文本数据生成不同语言的摘要,同时能够提炼总结文本大意,提高了摘要的精度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于多语言模型的跨语言摘要生成方法的流程示意图;
图2为本申请实施例的基于多语言模型的跨语言摘要生成方法的生成多语言摘要生成模型的流程图;
图3为本申请实施例的基于多语言模型的跨语言摘要生成方法的预训练流程图:
图4为本申请实施例的基于多语言模型的跨语言摘要生成方法的使用生成模型做提示学习的示例图;
图5为本申请实施例二所提供的一种基于多语言模型的跨语言摘要生成装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面是对本申请涉及到的术语的解释:
自然语言处理:利用计算机与人工智能技术实现人与计算机间用自然语言通信的领域。
语言模型:对自然语言建立概率模型,通过让模型阅读大规模的数据,使模型能够通过上下文预测训练时被遮盖掉的词或词组。
预训练:使语言模型学习大量数据,使其发现语言中的通用规律,学习语言结构,语法,并理解每个词的语义。
微调:让模型预训练后使其在某个特定任务上进行继续学习,来学习任务相关的语言知识。以摘要生成为例:通过让模型专门学习文章和对应的摘要,使模型能够基于预训练获得的语义知识判断哪些信息是总结,哪些信息为细节。
迁移学习:迁移学习是属于机器学习的一种研究领域,它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。领域迁移为迁移学习的一个分支,领域迁移:模型通过在某个领域上的学习,能够把学习到的通用知识迁移到另外一个领域内。比如将总结新闻的方法应用于总结学术文章上。
下面参考附图描述本申请实施例的基于多语言模型的跨语言摘要生成方法和装置。
图1为本申请实施例一所提供的一种基于多语言模型的跨语言摘要生成方法的流程图。
如图1所示,该基于多语言模型的跨语言摘要生成方法包括以下步骤:
步骤101,获取多语言文本数据;
步骤102,基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;
步骤103,获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;
步骤104,获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。
本申请实施例的基于多语言模型的跨语言摘要生成方法,通过获取多语言文本数据;基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。由此,能够解决现有方法无法完成跨语言摘要任务,只能先生成摘要再进行翻译且生成的摘要精度差的技术问题,通过对通用语言模型进行自回归填空预训练,得到多语言模型,基于多语言模型实现跨语言摘要生成,能够根据文本数据生成不同语言的摘要,同时能够提炼总结文本大意,提高了摘要的精度。
本申请提出了一种多语言模型(Multilingual General Language Model,MGLM),预训练后的多语言模型能够对在后续微调过程中对微调训练中未见过的语言完成句子分类,实体标注以及阅读理解等一些列下游任务。多语言模型MGLM体现了强大的迁移学习能力。以句子分类这一任务来举例:直接让MGLM学习101中语言的句子分类模型成本过高,可以通过让MGLM学习英语的句子分类方式,使得MGLM能够完成在其他语言句子分类的任务。对于其他下游任务,MGLM也仅是在英语上进行训练就能够学习到任务知识及任务所需要关注到的语义知识,并且通过预训练中获得的其他语言的语义知识完成从英语到其他语言的迁移,并完成下游任务。
进一步地,在本申请实施例中,在获取多语言文本数据之后,包括:
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
示例性的,对于给定的一段文本序列,随机采样多个文本片段,其中每个片段对应于一系列连续的字符,每个片段都被一个掩码标记替换,最终形成一个损坏的文本序列,将损坏的文本序列作为第一样本数据,将被掩码标记替换的片段作为第二样本数据。
进一步地,在本申请实施例中,基于多语言文本数据对通用语言模型进行预训练,得到多语言模型,包括:
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言模型。
本申请中的通用语言模型(General Language Model,GLM)的预训练方式结合了BERT和GPT-3:覆盖短句并让通用语言模型生成这些短句,通过这种方式,GLM结合了自编码和自回归。
GLM提出了一个基于自回归填空的通用预训练框架,通过在一个统一的框架中同时学习双向和单向的注意力机制,通用语言模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段,可以通过完形填空的形式统一不同类型的下游任务,从而实现针对所有自然语言处理任务通用的预训练模型。
GLM通过优化自回归填空目标来预训练。GLM模型首先以自回归方式从损坏的文本序列中预测丢失的片段,并通过不断更新模型参数来减小预测的结果与真实结果之间的差异,从而实现对模型参数的预训练。在预测丢失的片段时,GLM模型可以访问损坏的文本和先前预测的片段。为了充分捕捉不同片段之间的相互依赖性,随机排列片段的顺序。
本申请实施例通过将第一样本数据和第二样本数据输入GLM,其中,第一样本数据为损坏的文本序列,第二样本数据为被掩码标记替换的片段,GLM模型学习通过第一样本数据来生成第二样本数据,并不断更新模型参数来让GLM模型生成的结果更加接近第二样本数据,最终得到一个预训练好的GLM模型。编码时,第一样本数据的字符可以与第一样本数据的所有字符相互关联,但不能与第二样本数据中的任何字符相关联,第二样本数据中的字符可以与第一样本数据中的字符及第二样本数据中该字符之前的字符相关联,但不能与第二样本数据中的任何后续字符相关联。
在预训练阶段,GLM模型通过双向编码器,将第一样本数据中的文本互相做双向关联编码;通过单向编码器,将第二样本数据中的文本向第一样本数据以及第二样本数据中该文本之前的部分做单向关联编码。GLM模型通过学习从第一样本数据来生成第二样本数据的任务,对双向编码器和单向编码器中的权重参数进行更新。
为了进行自回归生成,在第二样本数据的每个片段的开头填充一个特殊标记字符,用于输入通用语言模型,在第二样本数据的每个片段的结尾填充一个特殊标记字符,用于通用语言模型输出。
进一步地,在本申请实施例中,方法,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言模型。
进一步地,在本申请实施例中,通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标,包括:
通过将每个片段的长度从均值为3的泊松分布中采样,总的片段长度为原始序列长度的第一预设比例,生成适应自然语言理解的分类任务的预训练目标;
通过使每个片段是文本序列中一个完整的句子,总的片段长度为原始文本序列长度的第二预设比例,生成适应条件文本生成的任务的预训练目标;
通过在一个文本序列中只采样一个片段,使片段长度为原始文本序列长度的第三预设比例,生成适应长文本生成的任务的预训练目标。
示例性的,第一预设比例可以为15%,第二预设比例可以为15%,第三预设比例可以为50%-100%。
本申请实施例中,对于字符级别,将每个片段的长度从均值为3的泊松分布中采样,总的片段长度为原始序列长度的15%,生成适应自然语言理解的分类任务的预训练目标,该预训练目标类似于BERT的掩码语言模型目标,有利于完成自然语言理解的分类任务。对于句子级别,使每个片段是文本序列中一个完整的句子,总的片段长度为原始文本序列长度的15%,生成适应条件文本生成的任务的预训练目标,该预训练目标有利于完成条件文本生成的任务。对于文档级别,在一个文本序列中只采样一个片段,使片段长度为原始文本序列长度的50%-100%,生成适应长文本生成的任务的预训练目标,该预训练目标类似于GPT-2的自回归语言模型目标,有利于完成长文本生成的任务。
进一步地,在本申请实施例中,多语言摘要数据包括不同语言的原文数据和摘要数据,获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型,包括:
将不同语言的原文数据和摘要数据作为训练数据,使用基于提示的微调对多语言模型进行训练,得到多语言摘要生成模型。
本申请使用基于提示的微调来对预训练后的多语言模型进行训练。具体而言就是通过提示使多语言模型执行对应的任务,例如,通过提示使多语言模型自由生成中文或者英文摘要。
本申请采集NCLS数据集上的中英文摘要作为训练数据进行微调。示例性的,在训练多语言模型时,对于中文摘要任务,使用“原文+中文摘要:”作为提示,而对于英文摘要生成任务,使用是“原文+TL;DR:”作为提示,其中,TL;DR为Too Long,Didn’t Read的缩写。
对于经过微调后得到的多语言摘要生成模型,可以通过输入原文拼接不同的提示,使多语言摘要生成模型输出不同语言的摘要。
图2为本申请实施例的基于多语言模型的跨语言摘要生成方法的生成多语言摘要生成模型的流程图。
如图2所示,生成多语言摘要生成模型,包括:采集多语言文本数据;基于多语言文本数据对通用语言模型进行多语言预训练,得到多语言大模型;采集英文原文与中文摘要数据,对多语言大模型微调,得到多语言摘要生成模型。
图3为本申请实施例的基于多语言模型的跨语言摘要生成方法的预训练流程图。
如图3所示,多语言GLM模型首先将多语言文本数据拆分成第一样本数据与第二样本数据;然后多语言GLM模型利用第一样本数据与第二样本数据进行预训练;其中,多语言GLM模型将第一样本数据中的字符互相做双向关联编码;将第二样本数据中的字符向第一样本数据以及第二样本数据中该字符之前的部分做单向关联编码。
图4为本申请实施例的基于多语言模型的跨语言摘要生成方法的使用生成模型做提示学习的示例图。
如图4所示,该图包括两部分,第一部分为多语言GLM模型通过提示学习框架来实现分类任务,其中,多语言GLM模型通过输入文本和提示信息生成文字,并通过生成的文字映射到一个类别,实现分类任务;第二部分为多语言GLM模型通过提示学习框架来实现文本生成任务,其中,多语言GLM模型通过输入文本生成文字。
图5为本申请实施例二所提供的一种基于多语言模型的跨语言摘要生成装置的结构示意图。
如图5所示,该基于多语言模型的跨语言摘要生成装置,包括:
获取模块10,用于获取多语言文本数据;
预训练模块20,用于基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;
训练模块30,用于获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;
生成模块40,用于获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。
本申请实施例的基于多语言模型的跨语言摘要生成装置,包括获取模块,用于获取多语言文本数据;预训练模块,用于基于多语言文本数据对通用语言模型进行预训练,得到多语言模型;训练模块,用于获取多语言摘要数据,基于多语言摘要数据对多语言模型进行学习,得到多语言摘要生成模型;生成模块,用于获取待处理文本数据,将待处理文本数据输入多语言摘要生成模型,生成待处理文本数据对应的多种不同语言的摘要。由此,能够解决现有方法无法完成跨语言摘要任务,只能先生成摘要再进行翻译且生成的摘要精度差的技术问题,通过对通用语言模型进行自回归填空预训练,得到多语言模型,基于多语言模型实现跨语言摘要生成,能够根据文本数据生成不同语言的摘要,同时能够提炼总结文本大意,提高了摘要的精度。
进一步地,在本申请实施例中,在获取多语言文本数据之后,包括:
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
为了实现上述实施例,本申请还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于多语言模型的跨语言摘要生成方法。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的基于多语言模型的跨语言摘要生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于多语言模型的跨语言摘要生成方法,其特征在于,包括以下步骤:
获取多语言文本数据;
基于所述多语言文本数据对通用语言模型进行预训练,得到多语言模型;
获取多语言摘要数据,基于所述多语言摘要数据对所述多语言模型进行学习,得到多语言摘要生成模型;
获取待处理文本数据,将所述待处理文本数据输入所述多语言摘要生成模型,生成所述待处理文本数据对应的多种不同语言的摘要。
2.如权利要求1所述的方法,其特征在于,在所述获取多语言文本数据之后,包括:
针对所述多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将所述文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将所述损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
3.如权利要求2所述的方法,其特征在于,所述基于所述多语言文本数据对通用语言模型进行预训练,得到多语言模型,包括:
根据所述第一样本数据和第二样本数据,对所述通用语言模型进行预训练,得到多语言模型。
4.如权利要求3所述的方法,其特征在于,所述方法,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对所述通用语言模型进行预训练,得到适应不同任务的多语言模型。
5.如权利要求4所述的方法,其特征在于,所述通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标,包括:
通过将每个片段的长度从均值为3的泊松分布中采样,总的片段长度为原始序列长度的第一预设比例,生成适应自然语言理解的分类任务的预训练目标;
通过使每个片段是文本序列中一个完整的句子,总的片段长度为原始文本序列长度的第二预设比例,生成适应条件文本生成的任务的预训练目标;
通过在一个文本序列中只采样一个片段,使片段长度为原始文本序列长度的第三预设比例,生成适应长文本生成的任务的预训练目标。
6.如权利要求1所述的方法,其特征在于,所述多语言摘要数据包括不同语言的原文数据和摘要数据,所述获取多语言摘要数据,基于所述多语言摘要数据对所述多语言模型进行学习,得到多语言摘要生成模型,包括:
将所述不同语言的原文数据和摘要数据作为训练数据,使用基于提示的微调对所述多语言模型进行训练,得到多语言摘要生成模型。
7.一种基于多语言模型的跨语言摘要生成装置,其特征在于,包括:
获取模块,用于获取多语言文本数据;
预训练模块,用于基于所述多语言文本数据对通用语言模型进行预训练,得到多语言模型;
训练模块,用于获取多语言摘要数据,基于所述多语言摘要数据对所述多语言模型进行学习,得到多语言摘要生成模型;
生成模块,用于获取待处理文本数据,将所述待处理文本数据输入所述多语言摘要生成模型,生成所述待处理文本数据对应的多种不同语言的摘要。
8.如权利要求7所述的装置,其特征在于,在所述获取多语言文本数据之后,包括:
针对所述多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将所述文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将所述损坏的文本序列作为第一样本数据;
将被掩码标记替换的片段作为第二样本数据。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202210966889.3A 2022-08-11 2022-08-11 基于多语言模型的跨语言摘要生成方法和装置 Pending CN115455175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210966889.3A CN115455175A (zh) 2022-08-11 2022-08-11 基于多语言模型的跨语言摘要生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210966889.3A CN115455175A (zh) 2022-08-11 2022-08-11 基于多语言模型的跨语言摘要生成方法和装置

Publications (1)

Publication Number Publication Date
CN115455175A true CN115455175A (zh) 2022-12-09

Family

ID=84298285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210966889.3A Pending CN115455175A (zh) 2022-08-11 2022-08-11 基于多语言模型的跨语言摘要生成方法和装置

Country Status (1)

Country Link
CN (1) CN115455175A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN116894089A (zh) * 2023-08-11 2023-10-17 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116187324B (zh) * 2023-04-28 2023-08-22 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116894089A (zh) * 2023-08-11 2023-10-17 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品
CN116894089B (zh) * 2023-08-11 2023-12-15 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
KR102069692B1 (ko) 신경망 기계번역 방법 및 장치
CN110188362B (zh) 文本处理方法及装置
CN112036162B (zh) 文本纠错的适配方法、装置、电子设备及存储介质
Rastogi et al. Weighting finite-state transductions with neural context
CN115455175A (zh) 基于多语言模型的跨语言摘要生成方法和装置
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
US20160350655A1 (en) Systems Methods Circuits and Associated Computer Executable Code for Deep Learning Based Natural Language Understanding
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN111611810A (zh) 一种多音字读音消歧装置及方法
CN104573099A (zh) 题目的搜索方法及装置
Lindén et al. Hfst—a system for creating nlp tools
CN112528605B (zh) 文本风格处理方法、装置、电子设备和存储介质
CN114896971B (zh) 一种特定前后缀否定词识别方法、装置及存储介质
CN115563959A (zh) 面向中文拼音拼写纠错的自监督预训练方法、系统及介质
CN114757203A (zh) 基于对比学习的中文句子精简方法和系统
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
Droganova et al. ÚFAL-Oslo at MRP 2019: Garage Sale Semantic Parsing
CN111160006B (zh) 一种实现指代消解的方法及装置
EP4323909A1 (en) Character-level attention neural networks
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination