CN115795009A - 基于生成式多语言模型的跨语言问答系统构建方法和装置 - Google Patents
基于生成式多语言模型的跨语言问答系统构建方法和装置 Download PDFInfo
- Publication number
- CN115795009A CN115795009A CN202211480992.3A CN202211480992A CN115795009A CN 115795009 A CN115795009 A CN 115795009A CN 202211480992 A CN202211480992 A CN 202211480992A CN 115795009 A CN115795009 A CN 115795009A
- Authority
- CN
- China
- Prior art keywords
- language
- training
- text
- question
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请提出了一种基于生成式多语言模型的跨语言问答系统构建方法,其中,该方法包括:获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。本申请基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性。
Description
技术领域
本申请涉及问答系统技术领域,尤其涉及一种基于生成式多语言模型的跨语言问答系统构建方法和装置。
背景技术
目前的自动问答系统多聚焦于单一语言内部,即使有多语言问答的解决方案,也多是在不同语言各自的文本或知识内部实现各自单一语言的问答功能,无法实现文本和知识的跨语言共享问答。
目前的基于语言模型的问答系统使用的语言模型无法完成跨领域的零样本迁移学习,也无法完成跨语言的零样本迁移学习,模型的问答能力只能限制在训练语料所包含的领域内,这要求必须提供一个囊括所有领域的训练语料,但这是不现实的。同时模型的问答能力只能限制在训练语料限定的语言范围内,这要求必须为每一种语言提供充足的问答语料,但这也是不容易做的事情。
目前很多问答系统是基于语言或知识的检索模型。这种非生成类的模型所能生成的答案一定会出现在原文或原知识库中,这样会令答案缺少多样性,也难以实现复杂逻辑的回答。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于生成式多语言模型的跨语言问答系统构建方法,解决了现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性,实现高质量的问答效果。
本申请的第二个目的在于提出一种基于生成式多语言模型的跨语言问答系统构建装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于生成式多语言模型的跨语言问答系统构建方法,包括:获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
可选地,在本申请的一个实施例中,获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,包括:
获取多语言文本数据;
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
可选地,在本申请的一个实施例中,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
可选地,在本申请的一个实施例中,对多语言预训练模型进行微调训练,包括:
获取学习率和批大小;
采用学习率和批大小,基于损失缩放机制通过反向传播更新多语言预训练模型的参数,从而对多语言预训练模型进行训练。
可选地,在本申请的一个实施例中,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案,包括:
根据待识别文本和问题文本,通过生成式多语言模型生成候选词及其概率;
设置束大小为k,根据候选词概率在候选词中选取概率最大的k个候选词作为第一输出位置的词例;
基于第一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为第二输出位置的词例;
基于上一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为当前输出位置的词例,直至得到所有输出位置的词例,并将概率最大的词例作为生成的答案。
为达上述目的,本申请第二方面实施例提出了一种基于生成式多语言模型的跨语言问答系统构建装置,包括:
预训练模块,用于获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
训练样本构建模块,用于获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;
训练模块,用于根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
生成模块,用于获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
可选地,在本申请的一个实施例中,预训练模块,具体用于:
获取多语言文本数据;
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
可选地,在本申请的一个实施例中,预训练模块,还用于:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于生成式多语言模型的跨语言问答系统构建方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种基于生成式多语言模型的跨语言问答系统构建方法。
本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性,实现高质量的问答效果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于生成式多语言模型的跨语言问答系统构建方法的流程图;
图2为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的GLM模型的预训练架构的示例图;
图3为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的浮点数数据格式示例图;
图4为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的损失缩放示例图;
图5为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的束检索流程示例图;
图6为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的另一个流程图;
图7为本申请实施例二所提供的一种基于生成式多语言模型的跨语言问答系统构建装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
问答系统旨在自动使用自然语言回答用户提出的自然语言问题,通常用户会向问答系统输入一段包含信息的上下文以及一个问题描述,问答系统会根据上下文提供的信息来生成问题的回答。仅支持一种语言的问答系统称为单语言问答系统;支持多种语言的问答系统称为多语言问答系统;在多语言问答系统的基础上,如果提供背景信息的上下文语言与提问的语言不一致,系统也能正确回答并给出目标语言的答案,这种跨语言生成答案的问答系统可以称作跨语言问答系统。本申请主要涉及基于多语言预训练模型的跨语言问答系统。
按照知识数据的组织形式差异,已有的问答系统可以分为三类:基于结构化数据的问答系统、基于自由文本的问答系统和基于问答样本的问答系统。基于结构化数据的系统使用结构化数据实现对问题的回答;基于自由文本的系统通过大规模训练,从自由文本中学习到知识和能力,从而实现对问题的回答;基于问答样本的系统通过对问答样本的训练和掌握,学习从问题到答案的映射,从而实现对问题的回答。
除此之外,按照生成答案的方式,问答系统解决方案可以分为检索式问答和生成式问答。检索式问答通过检索目标答案可能出现的文字区间(对于文本而言)或知识库中的知识点(对于结构化知识而言),提供问题的答案;生成式问答则是在模型充分训练之后,直接生成对问题的回答。
目前已经有大量的工作和发明聚焦于基于检索的问答系统、单语言的问答系统、基于大模型的零样本或少样本学习的问答系统和生成式的问答系统等各个领域。但在生成式的跨语言问答领域,尚未有人提出过相关的工作或发明。
目前各个多语言模型曾经在问答任务上进行零样本学习的实验案例,它们并不是真实存在的问答系统,只是在各个多语言模型的测试环节中的一个评测维度。本申请首次提出一个全新的生成式多语言问答系统的构建技术:基于具有迁移学习能力的多语言模型,训练较为容易获得的单语言语料,从而构建可以实现跨语言问答的问答系统。
近年来预训练框架被人们提出,这种在无标注的互联网语料上对模型进行自监督预训练的方式大大的提高了自然语言处理的各类任务的基准表现。随之而来涌现的各种预训练模型更是不断的打破各个任务的最优指标。
其中,GLM框架是基于自回归的方式进行训练和生成的一类模型。不同于BERT通过随机掩盖文字区间并让模型通过上下文重构这些区间内容的训练方式、也不同于GPT从左向右生成的纯自回归式训练方式,GLM的训练和生成方式结合了两者的优点——在前文随机遮盖文字区间,并在输入文字的最后自回归式地生成这些被遮盖的区间。这种训练的方式被称为基于自回归填空的通用预训练框架,可在统一的训练框架中同时学习双向和单向的注意力机制。此外,这种训练方式也使得模型同时适用于自然语言理解(NLU)和有条件/无条件自然语言生成(NLU)等多种自然语言处理任务。
除了在单一语言上训练的模型之外,人们也试图使用大规模的多语言预训练语料来训练一个支持多语言版本的预训练语言模型。其中,本申请的多语言预训练模型具有很多特性,其中之一便是它可以实现跨领域和跨语言的迁移学习,例如:在百科领域的语料上微调过的模型,可以直接应用在其它如新闻、学术领域的NLP需求上;在英语语料上微调过的模型可以在其它语言的相同任务上表现出良好水平。这种特性使得基于多语言大模型构建各种多语言应用变得更加容易。
下面参考附图描述本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法和装置。
图1为本申请实施例一所提供的一种基于生成式多语言模型的跨语言问答系统构建方法的流程示意图。
如图1所示,该基于生成式多语言模型的跨语言问答系统构建方法包括以下步骤:
步骤101,获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
步骤102,获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;
步骤103,根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
步骤104,获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法,通过获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。由此,能够解决现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性,实现高质量的问答效果。
本申请通过多语言预训练模型构建的问答系统可以实现迁移学习,这使得构建多语言的问答系统更加的方便和快捷,不需要尽可能多的获取不同语料的问答数据样本。本申请利用多语言预训练模型通过微调构建的跨语言问答系统可以实现高质量的问答效果,且其在评测数据集上的评测结果与目前业界最佳模型相比,可以达到持平甚至更好的表现。
进一步地,在本申请实施例中,获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,包括:
获取多语言文本数据;
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
示例性的,对于给定的一段文本序列,随机采样多个文本片段,其中每个片段对应于一系列连续的字符,每个片段都被一个掩码标记替换,最终形成一个损坏的文本序列,将损坏的文本序列作为第一样本数据,将被掩码标记替换的片段作为第二样本数据。
GLM提出了一个基于自回归填空的通用预训练框架,通过在一个统一的框架中同时学习双向和单向的注意力机制,通用语言模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段,可以通过完形填空的形式统一不同类型的下游任务,从而实现针对所有自然语言处理任务通用的预训练模型。
GLM通过优化自回归填空目标来预训练。GLM模型首先以自回归方式从损坏的文本序列中预测丢失的片段,并通过不断更新模型参数来减小预测的结果与真实结果之间的差异,从而实现对模型参数的预训练。在预测丢失的片段时,GLM模型可以访问损坏的文本和先前预测的片段。为了充分捕捉不同片段之间的相互依赖性,随机排列片段的顺序。
如图2所示,将第一样本数据和第二样本数据输入GLM,其中,第一样本数据为损坏的文本序列,第二样本数据为被掩码标记替换的片段,GLM模型以自回归方式从损坏的文本序列中预测丢失的片段,并通过不断更新模型参数来减小预测的结果与真实结果之间的差异,从而实现对模型参数的预训练。
本申请实施例通过将第一样本数据和第二样本数据输入GLM,其中,第一样本数据为损坏的文本序列,第二样本数据为被掩码标记替换的片段,GLM模型学习通过第一样本数据来生成第二样本数据,并不断更新模型参数来让GLM模型生成的结果更加接近第二样本数据,最终得到一个预训练好的GLM模型,即多语言预训练模型。编码时,第一样本数据的字符可以与第一样本数据的所有字符相互关联,但不能与第二样本数据中的任何字符相关联,第二样本数据中的字符可以与第一样本数据中的字符及第二样本数据中该字符之前的字符相关联,但不能与第二样本数据中的任何后续字符相关联。
在预训练阶段,GLM模型通过双向编码器,将第一样本数据中的文本互相做双向关联编码;通过单向编码器,将第二样本数据中的文本向第一样本数据以及第二样本数据中该文本之前的部分做单向关联编码。GLM模型通过学习从第一样本数据来生成第二样本数据的任务,对双向编码器和单向编码器中的权重参数进行更新。
为了进行自回归生成,在第二样本数据的每个片段的开头填充一个特殊标记字符,用于输入通用语言模型,在第二样本数据的每个片段的结尾填充一个特殊标记字符,用于通用语言模型输出。
进一步地,在本申请实施例中,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
为了开发问答系统,需要将多语言预训练模型mGLM在问答语料(数据集)上进行微调训练。其中,选择的问答数据集可以为XQuAD、MLQA和TyDiQA,其中,XQuAD数据集是基于SQuAD英语问答数据集经机器翻译而得到的多语言问答数据集;MLQA是一个基于平行语料的跨语言问答数据集,它的特点是提供了平行的语料,这让训练时可选择的文章段落和问题可以分别来自不同的语言,构成不同的语言对组合;TyDiQA先提供了多语言问题,然后由问题反向检索互联网而找到相关的多语言上下文或答案,并构成数据集。
由于本申请选择基于单一语言语料和模型的迁移学习能力来构建跨语言问答系统,因此可以在训练时选择训练上述三个数据集的英语语料,并在余下的语言的样本上测试模型的表现。
本申请对多语言预训练模型mGLM的微调方式基于提示学习,即给模型提示词来构建问答数据样本,并让模型学习生成最合适的输出结果。因此对于问答任务,本申请将获得的问答数据语料进行处理,构建用于提示学习的训练样本,例如:“Context:[上下文文本]Question:[问题文本]Answer:[sMASK]”。
其中,[sMASK]是一个特殊占位符,可以引导模型补全这个占位符上的真正内容,继而实现对问题的回答。此处需要注意的是,本申请选择在任何语言的推理过程中都使用英文的提示信息,这一步是保证模型在生成和推理时的任务和微调训练时的任务完全一致。
进一步地,在本申请实施例中,对多语言预训练模型进行微调训练,包括:
获取学习率和批大小;
采用学习率和批大小,基于损失缩放机制通过反向传播更新多语言预训练模型的参数,从而对多语言预训练模型进行训练。
本申请基于多语言预训练模型的迁移学习能力,仅选择数据集中的英语语料进行微调。开发微调训练程序时,本申请选择了合适的学习率、批大小和训练迭代次数,合适的硬件环境,从而实现对训练语料的充分学习,具体选择的配置如表一所示。
配置项 | 具体参数 |
学习率 | 1e-5 |
学习率更新方式 | 自适应调整 |
批大小 | 16 |
微调训练的硬件环境 | 一台A100 80G x 8机器 |
表一
本申请中数据集中除英语外的其它语言将作为测试集来测试在多语言问答场景下的有效性,并与其它多语言模型的数据做对比。微调训练和测试过程中,使用F1指标和完全匹配指标(Exact Match,或EM)来衡量模型对问答任务的回答准确性。其中,F1指标的定义为:同时平衡了准确率和召回率,是对模型效果的一种很综合的度量。完全匹配指标则是评估模型一字不差地完全匹配答案的能力。
本申请使用了16位浮点数的数据格式表示模型参数,以压缩显存空间。图3所示,16位浮点数由1个符号位,5个指数位和10个尾数位组成,指数能表示范围在[-14,15]之间。因此,16位浮点数有可能会因其狭窄的表示范围而带来溢出错误。
为了保证在反向梯度计算过程中,各个参数上的梯度值不会造成浮点溢出而导致参数更新失败,本申请使用了损失缩放机制(Loss Scale)。如图4所示,损失缩放机制指的是:在训练过程中会将损失值(梯度值)乘以一个缩放倍数(scale),以起到缩放梯度的作用,保证梯度落入16位浮点数精度可表示的范围内,从而最大程度地规避浮点计算中出现的溢出问题。在参数梯度聚合之后以及优化器更新参数之前,将聚合后的参数梯度值除以这个缩放倍数来还原真实梯度。
一个合适的缩放机制对训练效果起着关键作用,缩放倍数太小会导致最小的梯度值下溢为0;缩放倍数太大会导致最大的梯度值上溢为NaN或Inf。因此,本申请选择使用动态调整缩放机制的方式来保证训练的稳定性。具体做法为:先选择一个较大的缩放倍数初始值,如果发生溢出,则跳过本次更新并减小缩放倍数,否则正常进行梯度更新。如果连续N次迭代都没有出现上溢情况,再将缩放倍数增大。
此外,微调训练过程中,为了保证选择的提示词的有效性,除了“Context:[上下文文本]Question:[问题文本]Answer:[sMASK]”这类英语的提示词模板样本外,本申请也测试了多种不同语言的样本。
但是,使用英文提示词来进行训练和测试,会让模型在多语言测试集上达到最好表现。中文、法语、日语等其它语言构造的提示模板,其训练结果并不如英文。因此本申请最终还是选择使用英文提示词来构建训练模板和训练数据。
此外,为了实现分布式的训练,本申请使用了DeepSpeed分布式训练框架;为了实现高度可定制化的需求,本申请使用了SwissArmyTransformer的模型框架。
本申请构建问答系统时使用了束检索的方法实现。此外,生成式模型如果生成了太多文本,可能会导致排在后面的文本主题渐渐偏离原本的文本意思。因此本申请限制生成式模型的最大生成序列长度,具体的交互方案配置如表二所示。
表二
进一步地,在本申请实施例中,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案,包括:
根据待识别文本和问题文本,通过生成式多语言模型生成候选词及其概率;
设置束大小为k,根据候选词概率在候选词中选取概率最大的k个候选词作为第一输出位置的词例;
基于第一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为第二输出位置的词例;
基于上一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为当前输出位置的词例,直至得到所有输出位置的词例,并将概率最大的词例作为生成的答案。
本申请使用的束检索,本质上是一类对贪心算法的改进算法,扩大了搜索空间。在第一个输出位,束检索算法会选取当前条件概率最大的k个词(k即为束大小,beam size);之后的每个输出位置上,基于上个步长的输出序列,挑选出所有组合中条件概率最大的k个,作为截止到该位置的最佳候选序列。束检索算法的效果通常要好于贪心算法,贪心算法可看作是beam size=1的束检索算法。如图5所示,通过束检索生成“我恨你”的英文翻译“Ihate you”(分别用I、H、U表示),而束大小(beam size)选择为2。那么在第一个位置生成了三个候选词后,保留其中两个最高的(I和H);将这两个候选词作为条件生成第二个位置的候选词,共有六种组合,同样保留其中最高的两个(IH和HI);以此类推,直至推理完毕,概率最大的组合即为推理结果。
本申请首次通过将mGLM通用多语言模型引入了跨语言问答系统提出一种生成式并跨语言的问答系统;并且首次提出可以基于单一语言语料和模型的跨语言迁移学习能力来实现多语言问答任务。本申请在多项多语言问答评测指标上的表现都十分优异,如表三所示。
表三
图6为本申请实施例的基于生成式多语言模型的跨语言问答系统构建方法的另一个流程图。
如图6所示,该基于生成式多语言模型的跨语言问答系统构建方法,包括:获取多语言预训练模型mGLM;获取公开的问答数据集;处理获取的数据集,获得高质量训练样本;开发微调训练程序,根据高质量训练样本对多语言预训练模型mGLM进行零样本迁移微调训练,构建问答系统。
图7为本申请实施例二所提供的一种基于生成式多语言模型的跨语言问答系统构建装置的结构示意图。
如图7所示,该基于生成式多语言模型的跨语言问答系统构建装置,包括:
预训练模块10,用于获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
训练样本构建模块20,用于获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;
训练模块30,用于根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
生成模块40,用于获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。
本申请实施例的基于生成式多语言模型的跨语言问答系统构建装置,包括预训练模块,用于获取多语言文本数据,基于多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;训练样本构建模块,用于获取单一语料的问答数据集,采用占位符对问答数据集进行处理,构建用于提示学习的训练样本;训练模块,用于根据训练样本,基于提示学习对多语言预训练模型进行迭代微调训练,得到生成式多语言模型;生成模块,用于获取待识别文本和问题文本,将待识别文本和问题文本输入生成式多语言模型,基于束检索生成问题文本对应的不同语言的答案。由此,能够解决现有问答系统无法完成跨领域跨语言的零样本迁移学习,并且生成的答案缺少多样性技术问题,基于具有迁移学习能力的多语言模型和容易获得的单语言语料,构建能够实现跨语言问答的问答系统,能够以生成的方式得到答案,增加答案的多样性,实现高质量的问答效果。
进一步地,在本申请实施例中,预训练模块,具体用于:
获取多语言文本数据;
针对多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据第一样本数据和第二样本数据,对通用语言模型进行预训练,得到多语言预训练模型。
进一步地,在本申请实施例中,预训练模块,还用于:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
为了实现上述实施例,本申请还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于生成式多语言模型的跨语言问答系统构建方法。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的基于生成式多语言模型的跨语言问答系统构建方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于生成式多语言模型的跨语言问答系统构建方法,其特征在于,包括以下步骤:
获取多语言文本数据,基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
获取单一语料的问答数据集,采用占位符对所述问答数据集进行处理,构建用于提示学习的训练样本;
根据所述训练样本,基于提示学习对所述多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
获取待识别文本和问题文本,将所述待识别文本和问题文本输入所述生成式多语言模型,基于束检索生成所述问题文本对应的不同语言的答案。
2.如权利要求1所述的方法,其特征在于,所述获取多语言文本数据,基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,包括:
获取多语言文本数据;
针对所述多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将所述文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将所述损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据所述第一样本数据和第二样本数据,对所述通用语言模型进行预训练,得到多语言预训练模型。
3.如权利要求2所述的方法,其特征在于,所述基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型,还包括:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对所述通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
4.如权利要求1所述的方法,其特征在于,对所述多语言预训练模型进行微调训练,包括:
获取学习率和批大小;
采用所述学习率和批大小,基于损失缩放机制通过反向传播更新多语言预训练模型的参数,从而对所述多语言预训练模型进行训练。
5.如权利要求1所述的方法,其特征在于,将所述待识别文本和问题文本输入所述生成式多语言模型,基于束检索生成所述问题文本对应的不同语言的答案,包括:
根据所述待识别文本和问题文本,通过所述生成式多语言模型生成候选词及其概率;
设置束大小为k,根据候选词概率在所述候选词中选取概率最大的k个候选词作为第一输出位置的词例;
基于第一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为第二输出位置的词例;
基于上一输出位置的词例与候选词的组合词例的概率,选取概率最大的k个组合词例作为当前输出位置的词例,直至得到所有输出位置的词例,并将概率最大的词例作为生成的答案。
6.一种基于生成式多语言模型的跨语言问答系统构建装置,其特征在于,包括:
预训练模块,用于获取多语言文本数据,基于所述多语言文本数据对通用语言模型进行预训练,得到多语言预训练模型;
训练样本构建模块,用于获取单一语料的问答数据集,采用占位符对所述问答数据集进行处理,构建用于提示学习的训练样本;
训练模块,用于根据所述训练样本,基于提示学习对所述多语言预训练模型进行迭代微调训练,得到生成式多语言模型;
生成模块,用于获取待识别文本和问题文本,将所述待识别文本和问题文本输入所述生成式多语言模型,基于束检索生成所述问题文本对应的不同语言的答案。
7.如权利要求6所述的装置,其特征在于,所述预训练模块,具体用于:
获取多语言文本数据;
针对所述多语言文本数据的每一种语言的文本序列,随机采样多个文本片段,将所述文本序列中采样的每个片段用一个掩码标记替换,得到损坏的文本序列,其中,每个片段对应于一系列连续的字符;
将所述损坏的文本序列作为第一样本数据,并将被掩码标记替换的片段作为第二样本数据;
根据所述第一样本数据和第二样本数据,对所述通用语言模型进行预训练,得到多语言预训练模型。
8.如权利要求6所述的装置,其特征在于,所述预训练模块,还用于:
通过更改采样文本片段的长度和数量,生成适应不同任务的预训练目标对所述通用语言模型进行预训练,得到适应不同任务的多语言预训练模型。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211480992.3A CN115795009A (zh) | 2022-11-24 | 2022-11-24 | 基于生成式多语言模型的跨语言问答系统构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211480992.3A CN115795009A (zh) | 2022-11-24 | 2022-11-24 | 基于生成式多语言模型的跨语言问答系统构建方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115795009A true CN115795009A (zh) | 2023-03-14 |
Family
ID=85440943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211480992.3A Pending CN115795009A (zh) | 2022-11-24 | 2022-11-24 | 基于生成式多语言模型的跨语言问答系统构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795009A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303974A (zh) * | 2023-05-04 | 2023-06-23 | 之江实验室 | 基于目标生成式回应语言模型的回应方法和装置 |
CN117094419A (zh) * | 2023-10-16 | 2023-11-21 | 华南理工大学 | 面向多模态内容输出的大语言模型训练方法、装置及介质 |
CN117131181A (zh) * | 2023-10-24 | 2023-11-28 | 国家电网有限公司 | 一种异构知识问答模型的构建方法、信息提取方法及系统 |
CN117174177A (zh) * | 2023-06-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 蛋白质序列生成模型的训练方法、装置及电子设备 |
CN117171309A (zh) * | 2023-07-28 | 2023-12-05 | 至本医疗科技(上海)有限公司 | 针对医学问询提供应答信息的方法、设备和介质 |
CN117216220A (zh) * | 2023-09-25 | 2023-12-12 | 福建实达集团股份有限公司 | 一种大语言模型的使用方法及装置 |
CN117370994A (zh) * | 2023-12-08 | 2024-01-09 | 浙江君同智能科技有限责任公司 | 基于模糊测试的大语言模型漏洞检测方法和装置 |
CN117473047A (zh) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
CN117544508A (zh) * | 2023-10-13 | 2024-02-09 | 北京六方云信息技术有限公司 | 网络设备配置查询方法、装置、终端设备以及存储介质 |
CN117592552A (zh) * | 2023-12-08 | 2024-02-23 | 暗物质(北京)智能科技有限公司 | 一种生成式认知模型阅读理解能力提升方法和优化系统 |
CN117787422A (zh) * | 2024-02-27 | 2024-03-29 | 四川金信石信息技术有限公司 | 一种倒闸操作任务提取方法及系统 |
CN118114743A (zh) * | 2024-04-29 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 医疗模型预训练的方法、装置、电子设备及存储介质 |
CN118152528A (zh) * | 2024-02-28 | 2024-06-07 | 中国科学院自动化研究所 | 基于大语言模型的行动方案生成模型的训练方法及装置 |
CN118278527A (zh) * | 2024-06-03 | 2024-07-02 | 浪潮电子信息产业股份有限公司 | 自然语言处理任务执行及模型训练方法、装置、设备 |
CN118394321A (zh) * | 2024-06-27 | 2024-07-26 | 中国航空工业集团公司金城南京机电液压工程研究中心 | 一种零件三维实体模型建模的训练样本生成方法和装置 |
-
2022
- 2022-11-24 CN CN202211480992.3A patent/CN115795009A/zh active Pending
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303974B (zh) * | 2023-05-04 | 2023-08-01 | 之江实验室 | 基于目标生成式回应语言模型的回应方法和装置 |
CN116303974A (zh) * | 2023-05-04 | 2023-06-23 | 之江实验室 | 基于目标生成式回应语言模型的回应方法和装置 |
CN117174177A (zh) * | 2023-06-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 蛋白质序列生成模型的训练方法、装置及电子设备 |
CN117171309A (zh) * | 2023-07-28 | 2023-12-05 | 至本医疗科技(上海)有限公司 | 针对医学问询提供应答信息的方法、设备和介质 |
CN117216220A (zh) * | 2023-09-25 | 2023-12-12 | 福建实达集团股份有限公司 | 一种大语言模型的使用方法及装置 |
CN117216220B (zh) * | 2023-09-25 | 2024-06-07 | 福建实达集团股份有限公司 | 一种大语言模型的使用方法及装置 |
CN117544508A (zh) * | 2023-10-13 | 2024-02-09 | 北京六方云信息技术有限公司 | 网络设备配置查询方法、装置、终端设备以及存储介质 |
CN117094419A (zh) * | 2023-10-16 | 2023-11-21 | 华南理工大学 | 面向多模态内容输出的大语言模型训练方法、装置及介质 |
CN117094419B (zh) * | 2023-10-16 | 2024-01-30 | 华南理工大学 | 面向多模态内容输出的大语言模型训练方法、装置及介质 |
CN117131181B (zh) * | 2023-10-24 | 2024-04-05 | 国家电网有限公司 | 一种异构知识问答模型的构建方法、信息提取方法及系统 |
CN117131181A (zh) * | 2023-10-24 | 2023-11-28 | 国家电网有限公司 | 一种异构知识问答模型的构建方法、信息提取方法及系统 |
CN117592552A (zh) * | 2023-12-08 | 2024-02-23 | 暗物质(北京)智能科技有限公司 | 一种生成式认知模型阅读理解能力提升方法和优化系统 |
CN117370994B (zh) * | 2023-12-08 | 2024-02-27 | 浙江君同智能科技有限责任公司 | 基于模糊测试的大语言模型漏洞检测方法和装置 |
CN117370994A (zh) * | 2023-12-08 | 2024-01-09 | 浙江君同智能科技有限责任公司 | 基于模糊测试的大语言模型漏洞检测方法和装置 |
CN117473047B (zh) * | 2023-12-26 | 2024-04-12 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
CN117473047A (zh) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
CN117787422A (zh) * | 2024-02-27 | 2024-03-29 | 四川金信石信息技术有限公司 | 一种倒闸操作任务提取方法及系统 |
CN117787422B (zh) * | 2024-02-27 | 2024-04-26 | 四川金信石信息技术有限公司 | 一种倒闸操作任务提取方法及系统 |
CN118152528A (zh) * | 2024-02-28 | 2024-06-07 | 中国科学院自动化研究所 | 基于大语言模型的行动方案生成模型的训练方法及装置 |
CN118114743A (zh) * | 2024-04-29 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 医疗模型预训练的方法、装置、电子设备及存储介质 |
CN118114743B (zh) * | 2024-04-29 | 2024-09-13 | 支付宝(杭州)信息技术有限公司 | 医疗模型预训练的方法、装置、电子设备及存储介质 |
CN118278527A (zh) * | 2024-06-03 | 2024-07-02 | 浪潮电子信息产业股份有限公司 | 自然语言处理任务执行及模型训练方法、装置、设备 |
CN118394321A (zh) * | 2024-06-27 | 2024-07-26 | 中国航空工业集团公司金城南京机电液压工程研究中心 | 一种零件三维实体模型建模的训练样本生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115795009A (zh) | 基于生成式多语言模型的跨语言问答系统构建方法和装置 | |
CN106649288B (zh) | 基于人工智能的翻译方法和装置 | |
CN109800298B (zh) | 一种基于神经网络的中文分词模型的训练方法 | |
US5715469A (en) | Method and apparatus for detecting error strings in a text | |
CN108038107B (zh) | 基于卷积神经网络的语句情感分类方法、装置及其设备 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
WO2017210634A1 (en) | Iterative alternating neural attention for machine reading | |
CN111651589B (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN106557563A (zh) | 基于人工智能的查询语句推荐方法及装置 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN114896373A (zh) | 图文互检模型训练方法及装置、图文互检方法、设备 | |
CN111046659A (zh) | 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质 | |
CN115455175A (zh) | 基于多语言模型的跨语言摘要生成方法和装置 | |
CN108491381B (zh) | 一种汉语二分结构的句法分析方法 | |
CN115563959A (zh) | 面向中文拼音拼写纠错的自监督预训练方法、系统及介质 | |
CN113268996A (zh) | 用于扩充语料的方法和用于翻译模型的训练方法及产品 | |
WO2021239631A1 (en) | Neural machine translation method, neural machine translation system, learning method, learning system, and programm | |
CN114742037A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN114757203A (zh) | 基于对比学习的中文句子精简方法和系统 | |
CN118246412A (zh) | 文本润色训练数据筛选方法、装置、相关设备及计算机程序产品 | |
CN114139011A (zh) | 一种基于编码器-双解码器的图像中文描述生成方法 | |
CN117592490A (zh) | 一种加速瞥视训练的非自回归机器翻译方法及系统 | |
CN110516109B (zh) | 音乐标签的关联方法、装置及存储介质 | |
CN112131363A (zh) | 自动问答方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |