CN116050425A - 建立预训练语言模型的方法、文本预测方法及装置 - Google Patents

建立预训练语言模型的方法、文本预测方法及装置 Download PDF

Info

Publication number
CN116050425A
CN116050425A CN202211679239.7A CN202211679239A CN116050425A CN 116050425 A CN116050425 A CN 116050425A CN 202211679239 A CN202211679239 A CN 202211679239A CN 116050425 A CN116050425 A CN 116050425A
Authority
CN
China
Prior art keywords
text
module
training
pooling
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211679239.7A
Other languages
English (en)
Inventor
陈谦
王雯
张庆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202211679239.7A priority Critical patent/CN116050425A/zh
Publication of CN116050425A publication Critical patent/CN116050425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种建立预训练模型的方法、文本预测方法及装置,涉及深度学习技术领域。主要技术方案包括:获取包括多个第一文本样本的训练数据;利用所述训练数据训练预训练语言模型,所述预训练语言模型包括多个隐藏层,所述多个隐藏层包括:M个Transformer(转换)网络层以及N个池化网络层,所述M和N均为正整数;所述池化网络层包括池化处理模块和前馈神经网络模块,所述池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给所述前馈神经网络模块。通过本申请能够更好地对语义进行理解,提升预训练语言模型在语义理解上的准确率。

Description

建立预训练语言模型的方法、文本预测方法及装置
技术领域
本申请涉及深度学习技术领域,特别是涉及一种建立预训练语言模型的方法、文本预测方法及装置。
背景技术
近年来在深度学习的支撑下,自然语言处理技术迅猛发展。预训练语言模型将自然语言处理技术代入了一个新的阶段,得到了业界的广泛关注。预训练语言模型主要用以对输入的文本序列进行特征提取,从而得到文本序列中各Token(元素)的特征表示,从而在语义上理解各Token所体现的特征。
目前主流的预训练语言模型是基于Transformer(转换)网络实现的,每一层的Transformer利用self-attention(自注意力)机制来建模上下文,利用FFN(feed-forwardnetwork,前馈神经网络)来进行特征抽取。但目前的预训练语言模型在语义理解的准确率上有待提升。
发明内容
有鉴于此,本申请提供了一种建立预训练语言模型的方法、文本预测方法及装置,用以提升预训练语言模型在语义理解上的准确率。
本申请提供了如下方案:
第一方面,提供了一种建立预训练语言模型的方法,所述方法包括:
获取包括多个第一文本样本的训练数据;
利用所述训练数据训练预训练语言模型,所述预训练语言模型包括多个隐藏层,所述多个隐藏层包括:M个转换Transformer网络层以及N个池化网络层,所述M和N均为正整数;
所述池化网络层包括池化处理模块和前馈神经网络模块,所述池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给所述前馈神经网络模块;其中,若该池化网络层为所述预训练语言模型的第一层隐藏层,则该池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则该池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
根据本申请实施例中一可实现的方式,利用所述训练数据训练预训练语言模型包括:
将所述第一文本样本中的部分元素Token进行掩码处理,将所述掩码处理后的第一文本样本作为预训练语言模型的输入,由所述预训练语言模型输出第一文本样本的特征表示给第一预测网络,所述第一预测网络利用第一文本样本的特征表示预测第一文本样本中被掩码的内容;依据预设的训练目标更新所述预训练语言模型的模型参数,直至达到预设的训练结束条件;其中,所述训练目标包括:最小化所述第一预测网络对所述第一文本样本中被掩码Token的预测结果与被掩码Token在所述第一文本样本中的实际内容之间的差异;
获取训练得到的预训练语言模型。
根据本申请实施例中一可实现的方式,所述M个Transformer网络层位于所述预训练语言模型的前1至M层,所述N个池化网络层位于所述预训练语言模型的后N层。
根据本申请实施例中一可实现的方式,所述池化处理模块包括:第一线性子模块和局部池化子模块;
所述第一线性子模块对该池化网络层被输入的特征表示进行第一线性处理,得到第一向量表示,所述局部池化子模块对所述第一向量表示进行池化处理得到该池化网络层输出的特征表示。
根据本申请实施例中一可实现的方式,所述池化处理模块包括:全局池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块;
第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对该池化网络层被输入的特征表示进行第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第二向量表示、第三向量表示、第四向量表示和第五向量表示;
所述全局池化子模块对所述第二向量表示进行池化处理;
所述注意力子模块将所述池化处理后的第二向量表示、所述第三向量表示和第四向量表示分别作为查询向量、键向量和值向量进行注意力处理;
所述乘处理子模块对所述注意力处理后得到的向量表示与所述第五向量表示进行哈达玛相乘,得到该池化网络层输出的特征表示。
根据本申请实施例中一可实现的方式,所述池化处理模块包括:第一线性子模块、局部池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块;
第一线性子模块、第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对该池化网络层被输入的特征表示进行第一线性处理、第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第一向量表示、第二向量表示、第三向量表示、第四向量表示和第五向量表示;
所述局部池化子模块对所述第一向量表示进行池化处理得到第一池化向量表示;
所述注意力子模块将所述第二向量表示、所述第三向量表示和第四向量表示分别作为查询向量、键向量和值向量进行注意力处理;
所述乘处理子模块对所述注意力处理后得到的向量表示与所述第五向量表示进行哈达玛相乘,得到第六向量表示;
将所述第六向量表示和第一池化向量表示进行相加,得到该池化网络层输出的特征表示。
根据本申请实施例中一可实现的方式,所述池化处理模块还包括全局池化子模块;
所述全局池化子模块对所述第二向量表示进行池化处理;
所述注意力子模块将所述全局池化子模块处理后的第二向量表示作为查询向量。
第二方面,提供了一种训练文本预测模型的方法,所述方法包括:
获取包括多个第二文本样本的训练数据,所述第二文本样本被标注对应的期望预测信息,所述第二文本样本与所述期待预测信息之间存在预设关系;
利用所述训练数据训练文本预测模型,所述文本预测模型包括预训练语言模型和第二预测网络;所述预训练语言模型对所述第二文本样本进行特征提取,得到所述第二文本样本的特征表示;所述第二预测网络利用所述第二文本样本的特征表示预测与所述第二文本样本存在预设关系的信息;训练目标包括:最小化所述第二预测网络预测得到的信息与对应期望预测信息之间的差异;
其中所述预训练语言模型的初始参数采用上述第一方面中任一项所述方法预先训练得到。
第三方面,提供给了一种文本预测方法,所述方法包括:
获取待预测文本;
将所述待预测文本输入文本预测模型,获取所述文本预测模型预测得到的与所述待预测文本存在预设关系的信息;
所述文本预测模型采用如权利要求8所述的方法预先训练得到。
根据本申请实施例中一可实现的方式,所述文本预测模型为文本分类模型,与所述待预测文本存在预设关系的信息为所述待预测文本的类型;或者,
所述文本预测模型为信息抽取模型,与所述待预测文本存在预设关系的信息包括所述待预测文本中具有预设属性的元素Token,所述具有预设属性包括具有预设词性、作为预设类型的句子成分、属于实体词或属于实体关系词;或者,
所述文本预测模型为文本生成模型,与所述待预测文本存在预设关系的信息包括所述待预测文本的标题、摘要、关键句、答案或响应文本。
第四方面,提供了一种建立预训练语言模型的装置,所述装置包括:
第一样本获取单元,被配置为获取包括多个第一文本样本的训练数据;
第一模型训练单元,被配置为利用所述训练数据训练预训练语言模型,所述预训练语言模型包括多个隐藏层,所述多个隐藏层包括:M个Transformer网络层以及N个池化网络层,所述M和N均为正整数;
所述池化网络层包括池化处理模块和前馈神经网络模块,所述池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给所述前馈神经网络模块;其中,若该池化网络层为所述预训练语言模型的第一层隐藏层,则该池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则该池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
第五方面,提供了一种训练文本预测模型的装置,所述装置包括:
第二样本获取单元,被配置为获取包括多个第二文本样本的训练数据,所述第二文本样本被标注对应的期望预测信息,所述第二文本样本与所述期待预测信息之间存在预设关系;
第二模型训练单元,被配置为利用所述训练数据训练文本预测模型,所述文本预测模型包括预训练语言模型和第二预测网络;所述预训练语言模型对所述第二文本样本进行特征提取,得到所述第二文本样本的特征表示;所述第二预测网络利用所述第二文本样本的特征表示预测与所述第二文本样本存在预设关系的信息;训练目标包括:最小化所述第二预测网络预测得到的信息与对应期望预测信息之间的差异;
所述预训练语言模型的初始参数由上述第四方面所述的装置预先训练得到。
根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。
根据第七方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面至第三方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请采用了一种全新的预训练语言模型架构,在不同层混合采用自注意力和池化处理,通过预训练语言模型中的池化网络层抑制噪声,降低冗余信息,结合采用注意力机制的Transformer网络,能够更好地对语义进行理解,提升预训练语言模型在语义理解上的准确率。
2)本申请在靠近输入端的前M层使用Transformer网络层来建模表面和句法的上下文特征,在靠近输出端的后N层使用池化网络层来建模语义上下文特征,从而能够充分地理解文本语义,提升语义理解的准确率。
3)本申请提供了一种优选的池化处理模块,一方面经过局部的池化处理来编码局部上下文特征,另一方面通过注意力机制来进行全局特征的聚合,从而更准确地进行文本理解,提取语义特征。
4)本申请训练得到的预训练语言模型能够广泛应用于文本分类、文本的信息抽取、文本生成等文本预测场景,从而提高文本预测的准确性。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为是本申请实施例所适用的系统架构图;
图2为本申请实施例提供的建立预训练语言模型的方法流程图;
图3为本申请实施例提供的训练预训练语言模型的原理性示意图;
图4a为本申请实施例提供的池化处理模块的一种示意图;
图4b为本申请实施例提供的池化处理模块的另一种示意图;
图4c为本申请实施例提供的池化处理模块的再一种示意图;
图5为本申请实施例提供的训练文本预测模型的方法流程图;
图6为本申请实施例提供的训练预训练语言模型的装置的示意性框图;
图7为本申请实施例提供的训练文本预测模型的装置的示意性框图;
图8为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
背景技术中已经提到,目前主流的预训练语言模型是基于Transformer网络实现的。由于每一层Transformer网络在建模自然语言的上下文特征时,只采用了自注意力机制,并没有考虑模型不同层在建模自然语言的上下文特征时的特征差异,因此在语义理解的准确率上有待提升。
有鉴于此,本申请提出了一种全新的预训练语言模型的结构,除了采用自注意力机制的Transformer层之外,加入池化网络层。为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构,如图1中所示,该系统架构包括第一模型训练装置、第二模型训练装置和文本预测装置。
其中,第一模型训练装置在获取训练数据后,可以采用本申请实施例提供的方法进行模型训练,得到预训练语言模型。通常第一模型训练装置采用离线方式进行预训练语言模型的训练。
第二模型训练装置结合具体的下游任务,在第一模型训练装置训练得到的预训练语言模型的基础上进一步进行fine-tuning(微调)训练,得到文本预测模型。通常第二模型训练装置也是采用离线方式进行文本预测模型的训练。
其中,利用不同的下游任务可以预测得到不同的文本预测模型。例如,下游任务是分类任务时,得到的文本预测模型可以是文本分类模型。再例如,下游任务是序列标注任务时,得到的文本预测模型可以是信息抽取模型。再例如,下游任务是文本生成任务时,得到的文本预测模型可以是文本生成模型。等等。
第一模型训练装置、第二模型训练装置和文本预测装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Virtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。第一模型训练装置、第二模型训练装置和文本预测装置还可以设置于具有较强计算能力的计算机终端。
需要说明的是,上述文本预测装置除了在线上进行预测之外,也可以采用离线的方式进行预测,例如针对批量的待预测文本分别进行预测。
应该理解,图1中的第一模型训练装置、第二模型训练装置、文本预测装置预训练语言模型和文本预测模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一模型训练装置、第二模型训练装置、文本预测装置预训练语言模型和文本预测模型。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分。例如“第一模型训练装置”和“第二模型训练装置”用以在名称上区分两个模型训练装置。再例如“第一文本样本”和“第二文本样本”用以在名称上区分两种文本样本,等等。后续实施例中涉及的类似表述均是如此,不做一一解释。
图2为本申请实施例提供的建立预训练语言模型的方法流程图,该方法流程可以由图1所示系统中的第一模型训练装置执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取包括多个第一文本样本的训练数据。
步骤204:利用训练数据训练预训练语言模型,预训练语言模型包括多个隐藏层,多个隐藏层包括:M个Transformer(转换)网络层以及N个池化网络层,M和N均为正整数。其中池化网络层包括池化处理模块和前馈神经网络模块,池化处理模块对本池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给前馈神经网络模块;其中,若本池化网络层为预训练语言模型的第一层隐藏层,则所述本池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则本池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
可以看出,本申请采用了一种全新的预训练语言模型架构,在不同层分别采用自注意力和池化处理,通过预训练语言模型中混合的池化网络层抑制噪声,降低冗余信息,结合采用注意力机制的Transformer网络,能够更好地对语义进行理解,提升预训练语言模型在语义理解上的准确率。
在上述步骤202中,获取的第一文本样本可以是语句、段落、文章等等文本,将这些文本作为训练数据。
下面结合实施例重点对上述流程中步骤204即“利用训练数据训练预训练语言模型”进行详细描述。
为了方便理解,首先对本申请实施例提供的预训练语言模型进行详细描述。如图3中所示,该预训练语言模型可以包括多个隐藏层。该多个隐藏层中包括M个Transformer网络层和N个池化网络层,也就是说,包括M+N个隐藏层。M和N均为正整数。
各隐藏层均串行连接,Transformer网络层和池化网络层可以以任意方式串行混合构成预训练语言模型。例如,池化网络层可以位于靠近预训练语言模型的输入端的前N层,Transformer网络层位于靠近预训练语言模型的输出端的后M层。再例如,可以一个Transformer网络层一个池化网络层交替串行得到预训练语言模型。
通常来说,语言模型会在靠近输入端的隐藏层编码表面特征,在中间的隐藏层编码句法特征,在靠近输出端的隐藏层编码语义特征。因此,本申请提供了一种优选的方式,如图3中所示,在靠近输入端的前M层使用Transformer网络层来建模表面和句法的上下文特征,在靠近输出端的后N层使用池化网络层来建模语义上下文特征,从而能够充分地理解文本语义,提升语义理解的准确率。
第一训练样本在输入预训练语言模型之前,可以通过嵌入网络进行Embedding(嵌入)处理,得到第一训练样本的特征表示。其中第一训练样本的特征表示由第一训练样本中各Token(元素)的向量表示构成。Token可以包括字符和分隔符。
其中,嵌入网络对输入的文本样本(训练过程中为第一训练样本)进行的Embedding处理可以包括:词Embedding和位置Embedding,还可以包括诸如语句Embedding、段落Embedding或类型Embedding等。
词Embedding,即将各字符或分隔符进行词向量编码,得到词向量表示。
位置Embedding,即将各字符或分隔符在输入序列中的位置进行编码,得到位置的表示。例如将各字符和分隔符依次编号为0、1、2、3、4等等。
语句Embedding,即将各字符或分隔符所属的语句进行编码,得到所属语句的编码表示。例如将位于首句的各字符和分隔符都编码为编号0,将位于第2句的各字符和分隔符都编号为1,以此类推。
段落Embedding,即将各字符或分隔符所属的段落进行编码,得到所属段落的编码表示。例如将位于首段的各字符和分隔符都编码为编号0,将位于第2段的各字符和分隔符都编号为1,以此类推。
类型Embedding,即将各字符或分隔符所属文本类型进行编码,得到类型的编码表示。
如图3中所示,Transformer网络层的结构与现有技术中Transformer网络层的结构一致,即采用已有的Transformer网络层,包括自注意力模块和FFN模块,在注意力模块和FFN模块之后还包含有Add&Norm(残差和标准化)模块。Transformer网络层的结构在此不做详述。
池化网络层主要包括池化处理模块和FFN模块。池化处理模块对本池化网络层被输入的特征表示进行池化处理,将池化处理后的特征表示提供给FFN模块。对于池化处理模块而言,如果位于第一层隐藏层,则该池化处理模块被输入的是第一文本样本经过上述Embedding处理后的特征表示。如果位于非第一层隐藏层,则池化处理模块被输入的上一层隐藏层输出的特征表示。与Transformer网络层类似地,在池化网络层中池化处理模块之后和FFN模块之后还含有Add&Norm(残差和标准化)模块。
池化处理模块之后的Add&Norm模块主要用以对池化处理模块输出的表示和输入池化处理模块的特征表示进行残差处理后,在对残差处理后的特征表示进行归一化处理。FFN模块之后的Add&Norm模块主要用以对FFN模块输出的表示和输入FFN模块的特征表示进行残差处理后,在对残差处理后的特征表示进行归一化处理。鉴于Add&Norm模块和FFN模块均为现有模块,在此不做详述。
下面对本申请实施例提供的池化处理模块的具体实现方式进行详细描述。
作为其中一种可实现的方式,如图4a中所示,池化处理模块可以包括第一线性子模块和局部池化子模块。
第一线性子模块对本池化网络层被输入的特征表示Hin进行第一线性处理,得到第一向量表示HL。再由局部池化子模块对第一向量表示HL进行池化处理得到本池化网络层输出的特征表示Hout
其中,局部池化子模块可以采用平均池化、Max-pooling(最大值池化)等,优选Max-pooling来编码局部上下文特征。用以保留主要特征,去除冗余,防止过拟合,从而在语义上进行特征提取。
作为另一种可实现的方式,如图4b中所示,池化处理模块可以包括:全局池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块。
第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对本池化网络层被输入的特征表示Hin进行第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第二向量表示HQ、第三向量表示HK、第四向量表示HV和第五向量表示HO
全局池化子模块对第二向量表示HQ进行池化处理。其中池化处理可以采用诸如平均池化的方式,得到池化处理后的第二向量表示
Figure BDA0004018502920000091
注意力子模块将池化处理后的第二向量表示
Figure BDA0004018502920000092
第三向量表示HK和第四向量表示HV分别作为查询向量Q、键向量K和值向量V进行注意力处理得到
Figure BDA0004018502920000093
其中,注意力处理可以采用多头CrossAttention(交叉注意力)机制,也可以采用其他注意力机制。
另外,为了避免所有的Token都共享同一个全局表征,可以由乘处理子模块对注意力处理后得到的向量表示
Figure BDA0004018502920000094
与第五向量表示HO进行哈达玛相乘(HadamardProduct),得到本池化网络层输出的特征表示Hout。即:
Figure BDA0004018502920000095
Figure BDA0004018502920000099
与HO进行哈达玛相乘就是将
Figure BDA0004018502920000096
与HO中元素对应相乘。
作为再一种可实现的方式,如图4c中所示,池化处理模块可以包括:第一线性子模块、局部池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块。还可以进一步包括全局池化子模块。
第一线性子模块、第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对本池化网络层被输入的特征表示Hin进行第一线性处理、第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第一向量表示HL、第二向量表示HQ、第三向量表示HK、第四向量表示HV和第五向量表示HO
局部池化子模块对第一向量表示HL进行池化处理得到第一池化向量表示HLMP
其中,局部池化子模块可以采用平均池化、Max-pooling(最大值池化)等,优选Max-pooling来编码局部上下文特征。用以保留主要特征,去除冗余,防止过拟合,从而在语义上进行特征提取。
全局池化子模块对第二向量表示HQ进行池化处理。其中池化处理可以采用诸如平均池化的方式,得到池化处理后的第二向量表示
Figure BDA0004018502920000097
注意力子模块将池化处理后的第二向量表示
Figure BDA0004018502920000098
第三向量表示HK和第四向量表示HV分别作为查询向量Q、键向量K和值向量V进行注意力处理得到HQ att。其中,注意力处理可以采用多头CrossAttention(交叉注意力)机制,也可以采用其他注意力机制。
在该实现方式中,也可以不包含全局池化子模块,注意力子模块直接将第二向量表示HQ作为查询向量Q。
乘处理子模块对所述注意力处理后得到的向量表示HQ att与所述第五向量表示HO进行哈达玛相乘,得到第六向量表示HGA
最后将第六向量表示HGA和第一池化向量表示HLMP进行相加,得到本池化网络层输出的特征表示Hout。例如:
Hout=HGA+HLMP
在训练预训练语言模型时,可以将第一文本样本中的部分Token进行mask(掩码)处理,例如随机对部分Token进行mask,通过构建预测被mask内容的预测任务来训练预训练语言模型。如图3中所示,可以在上述预训练语言模型的结构基础上进一步连接第一预测网络。
将mask处理后的第一文本样本作为预训练语言模型的输入,由预训练语言模型输出第一文本样本的特征表示给第一预测网络。第一预测网络利用第一文本样本的特征表示预测第一文本样本中被mask的内容。训练目标包括:最小化第一预测网络对第一文本样本中被mask的Token的预测结果与被mask的Token在所述第一文本样本中的实际内容之间的差异。
在本申请实施例中,可以依据上述训练目标构造Loss(损失函数),在每一轮迭代中利用Loss的取值,采用诸如梯度下降等方式更新预训练语言模型和第一预测网络的参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如Loss的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
训练结束后,去除第一预测网络,获取训练得到的预训练语言模型。
训练得到预训练语言模型后,可以构建下游预测任务,在该预训练语言模型的基础上进行fine-tuning(微调)得到具体的文本预测模型。图5为本申请实施例提供的训练文本预测模型的方法流程图,该方法可以由图1所示系统架构中的第二模型训练装置执行。如图5中所示,该方法可以包括以下步骤:
步骤502:获取包括多个第二文本样本的训练数据,第二文本样本被标注对应的期望预测信息,第二文本样本与期待预测信息之间存在预设关系。
步骤504:利用训练数据训练文本预测模型,文本预测模型包括预训练语言模型和第二预测网络;预训练语言模型对第二文本样本进行特征提取,得到第二文本样本的特征表示;第二预测网络利用第二文本样本的特征表示预测与第二文本样本存在预设关系的信息;训练目标包括:最小化第二预测网络预测得到的信息与对应期望预测信息之间的差异。
得到文本预测模型后,在进行文本预测时,获取待预测文本后,将待预测文本输入文本预测模型,就能够获取到文本预测模型预测得到的与该待预测文本存在预设关系的信息。
利用不同的训练数据来构建不同的下游预测任务,可以分别得到不同的文本预测模型。具体可以包括但不限于以下几种:
第一种:利用文本生成任务得到的文本生成模型
训练文本生成模型时,针对第二文本样本标注的对应的期望预测信息可以是第二文本样本对应的第三文本样本,所述第二文本样本与所述第三文本样本之间存在预设关系。
例如,第三文本样本是第二文本样本的标题,则训练得到的文本生成模型是标题生成模型。利用训练得到的标题生成模型在输入待预测文本时,可以自动生成待预测文本的标题。
再例如,第三文本样本是第二文本样本的摘要,则训练得到的文本生成模型是摘要生成模型。利用训练得到的摘要生成模型在输入待预测文本时,可以自动生成待预测文本的摘要。
再例如,第三文本样本是第二文本样本的关键句,则训练得到的文本生成模型是关键句生成模型。利用训练得到的关键句生成模型在输入待预测文本时,可以自动生成待预测文本的关键句。
再例如,第二文本样本可以是问题样本,第三文本样本是第二文本样本对应的答案样本,则训练得到的文本生成模型是问答模型。利用训练得到的问答模型在输入用户的问题文本时,可以自动生成该问题文本对应的答案。
再例如,第二文本样本和第三文本可以是对话中的一对文本,则训练得到的文本生成模型是人机交互模型。待预测文本为用户输入人机交互系统的文本,人机交互系统可以利用人机交互模型自动生成响应文本用以返回给用户。
第二种:利用文本分类任务得到的文本分类模型
训练文本分类模型时,针对第二文本样本标注的对应的期望预测信息可以是第二文本样本对应的类型标签。例如,将第二文本样本标注为财经、娱乐、文化、科技等类别。新闻类平台可以利用该文本分类模型自动确定各新闻文本的类型。
第三种:利用序列标注任务得到的信息抽取模型
在训练信息抽取模型时,针对第二文本样本标注的对应的期望预测信息可以是对第二文本样本中各Token(元素)标注的属性标签,用以利用信息抽取模型从第二文本样本中抽取出预设属性的Token。其中,Token可以是字符、词语等。例如,可以用以抽取预设词性的词语、预设句子成分的词语或短语,抽取实体词,抽取实体关系词,等等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种训练预训练语言模型的装置。图6示出根据一个实施例的训练预训练语言模型的装置的示意性框图,该装置即图1所示架构中的第一模型训练装置。如图6所示,该装置600包括:第一样本获取单元601和第一模型训练单元602。其中各组成单元的主要功能如下:
第一样本获取单元601,被配置为获取包括多个第一文本样本的训练数据。
第一模型训练单元602,被配置为利用训练数据训练预训练语言模型,预训练语言模型包括多个隐藏层,多个隐藏层包括:M个Transformer网络层以及N个池化网络层,M和N均为正整数。
池化网络层包括池化处理模块和前馈神经网络模块,池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给前馈神经网络模块;其中,若该池化网络层为预训练语言模型的第一层隐藏层,则该池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则该池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
作为其中一种可实现的方式,第一模型训练单元602将第一文本样本中的部分元素Token进行掩码处理,将掩码处理后的第一文本样本作为预训练语言模型的输入,由预训练语言模型输出第一文本样本的特征表示给第一预测网络,第一预测网络利用第一文本样本的特征表示预测第一文本样本中被掩码的内容;依据预设的训练目标更新预训练语言模型的模型参数,直至达到预设的训练结束条件;其中,训练目标包括:最小化第一预测网络对第一文本样本中被掩码Token的预测结果与被掩码Token在第一文本样本中的实际内容之间的差异;获取训练得到的预训练语言模型。
作为其中一种优选的实施方式,M个Transformer网络层位于预训练语言模型的第1至M层,N个池化网络层位于预训练语言模型的后N层。
其中,池化处理模块可以包括采用图4a、图4b和图4c所示结构的实现方式。
其中图4c为其中一种优选的实施方式,池化处理模块包括:第一线性子模块、局部池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块。
第一线性子模块、第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对该池化网络层被输入的特征表示进行第一线性处理、第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第一向量表示、第二向量表示、第三向量表示、第四向量表示和第五向量表示。
局部池化子模块对第一向量表示进行池化处理得到第一池化向量表示。
注意力子模块将第二向量表示、第三向量表示和第四向量表示分别作为查询向量、键向量和值向量进行注意力处理。
乘处理子模块对注意力处理后得到的向量表示与第五向量表示进行哈达玛相乘,得到第六向量表示。
将第六向量表示和第一池化向量表示进行相加,得到该池化网络层输出的特征表示。
更进一步地,池化处理模块还包括全局池化子模块;全局池化子模块对第二向量表示进行池化处理。
注意力子模块将全局池化子模块处理后的第二向量表示作为查询向量。
关于图4a和图4b具体可以参见方法实施例中的相关描述,在此不做赘述。
图7为本申请实施例提供的训练文本预测模型的装置的示意性框图,该装置即图1所示架构中的第二模型训练装置。如图7所示,该装置700包括:第二样本获取单元701和第二模型训练单元702。其中各组成单元的主要功能如下:
第二样本获取单元701,被配置为获取包括多个第二文本样本的训练数据,第二文本样本被标注对应的期望预测信息,第二文本样本与期待预测信息之间存在预设关系。
第二模型训练单元702,被配置为利用训练数据训练文本预测模型,文本预测模型包括预训练语言模型和第二预测网络;预训练语言模型对第二文本样本进行特征提取,得到第二文本样本的特征表示;第二预测网络利用第二文本样本的特征表示预测与第二文本样本存在预设关系的信息;训练目标包括:最小化第二预测网络预测得到的信息与对应期望预测信息之间的差异;
预训练语言模型的初始参数由图6的装置预先训练得到。
在得到上述文本预测模型后,文本预测装置可以利用文本预测模型进行文本预测。文本预测装置可以包括文本获取单元和文本预测单元。
文本获取单元,被配置为获取待预测文本。
文本预测单元,被配置为将待预测文本输入文本预测模型,获取文本预测模型预测得到的与待预测文本存在预设关系的信息。文本预测模型采用图7的方法预先训练得到。
作为其中一种可实现的方式,文本预测模型可以为文本分类模型,上述与待预测文本存在预设关系的信息可以为待预测文本的类型。
作为另一种可实现的方式,文本预测模型可以为信息抽取模型,上述与待预测文本存在预设关系的信息包括待预测文本中具有预设属性的元素Token。其中,具有预设属性包括具有预设词性、作为预设类型的句子成分、属于实体词或属于实体关系词。
作为再一种可实现的方式,文本预测模型可以为文本生成模型,上述与待预测文本存在预设关系的信息包括待预测文本的标题、摘要、关键句、答案或响应文本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图8示例性的展示出了电子设备的架构,具体可以包括处理器810,视频显示适配器811,磁盘驱动器812,输入/输出接口813,网络接口814,以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820之间可以通过通信总线830进行通信连接。
其中,处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器820可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及模型训练装置825等等。上述模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种建立预训练语言模型的方法,其特征在于,所述方法包括:
获取包括多个第一文本样本的训练数据;
利用所述训练数据训练预训练语言模型,所述预训练语言模型包括多个隐藏层,所述多个隐藏层包括:M个转换Transformer网络层以及N个池化网络层,所述M和N均为正整数;
所述池化网络层包括池化处理模块和前馈神经网络模块,所述池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给所述前馈神经网络模块;其中,若该池化网络层为所述预训练语言模型的第一层隐藏层,则该池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则该池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
2.根据权利要求1所述的方法,其特征在于,利用所述训练数据训练预训练语言模型包括:
将所述第一文本样本中的部分元素Token进行掩码处理,将所述掩码处理后的第一文本样本作为预训练语言模型的输入,由所述预训练语言模型输出第一文本样本的特征表示给第一预测网络,所述第一预测网络利用第一文本样本的特征表示预测第一文本样本中被掩码的内容;依据预设的训练目标更新所述预训练语言模型的模型参数,直至达到预设的训练结束条件;其中,所述训练目标包括:最小化所述第一预测网络对所述第一文本样本中被掩码Token的预测结果与被掩码Token在所述第一文本样本中的实际内容之间的差异;
获取训练得到的预训练语言模型。
3.根据权利要求1所述的方法,其特征在于,所述M个Transformer网络层位于所述预训练语言模型的前1至M层,所述N个池化网络层位于所述预训练语言模型的后N层。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述池化处理模块包括:第一线性子模块和局部池化子模块;
所述第一线性子模块对该池化网络层被输入的特征表示进行第一线性处理,得到第一向量表示,所述局部池化子模块对所述第一向量表示进行池化处理得到该池化网络层输出的特征表示。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述池化处理模块包括:全局池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块;
第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对该池化网络层被输入的特征表示进行第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第二向量表示、第三向量表示、第四向量表示和第五向量表示;
所述全局池化子模块对所述第二向量表示进行池化处理;
所述注意力子模块将所述池化处理后的第二向量表示、所述第三向量表示和第四向量表示分别作为查询向量、键向量和值向量进行注意力处理;
所述乘处理子模块对所述注意力处理后得到的向量表示与所述第五向量表示进行哈达玛相乘,得到该池化网络层输出的特征表示。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述池化处理模块包括:第一线性子模块、局部池化子模块、第二线性子模块、第三线性子模块、第四线性子模块、第五线性子模块、注意力子模块和乘处理子模块;
第一线性子模块、第二线性子模块、第三线性子模块、第四线性子模块和第五线性子模块分别对该池化网络层被输入的特征表示进行第一线性处理、第二线性处理、第三线性处理、第四线性处理和第五线性处理,得到第一向量表示、第二向量表示、第三向量表示、第四向量表示和第五向量表示;
所述局部池化子模块对所述第一向量表示进行池化处理得到第一池化向量表示;
所述注意力子模块将所述第二向量表示、所述第三向量表示和第四向量表示分别作为查询向量、键向量和值向量进行注意力处理;
所述乘处理子模块对所述注意力处理后得到的向量表示与所述第五向量表示进行哈达玛相乘,得到第六向量表示;
将所述第六向量表示和第一池化向量表示进行相加,得到该池化网络层输出的特征表示。
7.根据权利要求6所述的方法,其特征在于,所述池化处理模块还包括全局池化子模块;
所述全局池化子模块对所述第二向量表示进行池化处理;
所述注意力子模块将所述全局池化子模块处理后的第二向量表示作为查询向量。
8.一种训练文本预测模型的方法,其特征在于,所述方法包括:
获取包括多个第二文本样本的训练数据,所述第二文本样本被标注对应的期望预测信息,所述第二文本样本与所述期待预测信息之间存在预设关系;
利用所述训练数据训练文本预测模型,所述文本预测模型包括预训练语言模型和第二预测网络;所述预训练语言模型对所述第二文本样本进行特征提取,得到所述第二文本样本的特征表示;所述第二预测网络利用所述第二文本样本的特征表示预测与所述第二文本样本存在预设关系的信息;训练目标包括:最小化所述第二预测网络预测得到的信息与对应期望预测信息之间的差异;
其中所述预训练语言模型的初始参数采用权利要求1至7中任一项所述方法预先训练得到。
9.一种文本预测方法,其特征在于,所述方法包括:
获取待预测文本;
将所述待预测文本输入文本预测模型,获取所述文本预测模型预测得到的与所述待预测文本存在预设关系的信息;
所述文本预测模型采用如权利要求8所述的方法预先训练得到。
10.根据权利要求9所述的方法,其特征在于,所述文本预测模型为文本分类模型,与所述待预测文本存在预设关系的信息为所述待预测文本的类型;或者,
所述文本预测模型为信息抽取模型,与所述待预测文本存在预设关系的信息包括所述待预测文本中具有预设属性的元素Token,所述具有预设属性包括具有预设词性、作为预设类型的句子成分、属于实体词或属于实体关系词;或者,
所述文本预测模型为文本生成模型,与所述待预测文本存在预设关系的信息包括所述待预测文本的标题、摘要、关键句、答案或响应文本。
11.一种建立预训练语言模型的装置,其特征在于,所述装置包括:
第一样本获取单元,被配置为获取包括多个第一文本样本的训练数据;
第一模型训练单元,被配置为利用所述训练数据训练预训练语言模型,所述预训练语言模型包括多个隐藏层,所述多个隐藏层包括:M个Transformer网络层以及N个池化网络层,所述M和N均为正整数;
所述池化网络层包括池化处理模块和前馈神经网络模块,所述池化处理模块对该池化网络层被输入的特征表示进行池化处理,将池化处理后的表示提供给所述前馈神经网络模块;其中,若该池化网络层为所述预训练语言模型的第一层隐藏层,则该池化网络层被输入的特征表示为第一文本样本经过嵌入处理后得到的特征表示,否则该池化网络层被输入的特征表示为上一层的隐藏层输出的特征表示。
12.一种训练文本预测模型的装置,其特征在于,所述装置包括:
第二样本获取单元,被配置为获取包括多个第二文本样本的训练数据,所述第二文本样本被标注对应的期望预测信息,所述第二文本样本与所述期待预测信息之间存在预设关系;
第二模型训练单元,被配置为利用所述训练数据训练文本预测模型,所述文本预测模型包括预训练语言模型和第二预测网络;所述预训练语言模型对所述第二文本样本进行特征提取,得到所述第二文本样本的特征表示;所述第二预测网络利用所述第二文本样本的特征表示预测与所述第二文本样本存在预设关系的信息;训练目标包括:最小化所述第二预测网络预测得到的信息与对应期望预测信息之间的差异;
所述预训练语言模型的初始参数由权利要求11所述的装置预先训练得到。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。
CN202211679239.7A 2022-12-26 2022-12-26 建立预训练语言模型的方法、文本预测方法及装置 Pending CN116050425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211679239.7A CN116050425A (zh) 2022-12-26 2022-12-26 建立预训练语言模型的方法、文本预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211679239.7A CN116050425A (zh) 2022-12-26 2022-12-26 建立预训练语言模型的方法、文本预测方法及装置

Publications (1)

Publication Number Publication Date
CN116050425A true CN116050425A (zh) 2023-05-02

Family

ID=86128677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211679239.7A Pending CN116050425A (zh) 2022-12-26 2022-12-26 建立预训练语言模型的方法、文本预测方法及装置

Country Status (1)

Country Link
CN (1) CN116050425A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN117892139A (zh) * 2024-03-14 2024-04-16 中国医学科学院医学信息研究所 基于层间比对的大语言模型训练和使用方法及相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN116881428B (zh) * 2023-09-06 2023-11-21 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN117892139A (zh) * 2024-03-14 2024-04-16 中国医学科学院医学信息研究所 基于层间比对的大语言模型训练和使用方法及相关装置
CN117892139B (zh) * 2024-03-14 2024-05-14 中国医学科学院医学信息研究所 基于层间比对的大语言模型训练和使用方法及相关装置

Similar Documents

Publication Publication Date Title
Radford et al. Improving language understanding by generative pre-training
CN111581361B (zh) 一种意图识别方法及装置
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
Tada et al. Robust understanding of robot-directed speech commands using sequence to sequence with noise injection
CN114912450B (zh) 信息生成方法与装置、训练方法、电子设备和存储介质
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN111723583A (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN116662496A (zh) 信息抽取方法、训练问答处理模型的方法及装置
CN116468038A (zh) 信息抽取方法、训练信息抽取模型的方法及装置
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN116432646A (zh) 预训练语言模型的训练方法、实体信息识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination