CN116227467A - 模型的训练方法、文本处理方法及装置 - Google Patents
模型的训练方法、文本处理方法及装置 Download PDFInfo
- Publication number
- CN116227467A CN116227467A CN202211102466.3A CN202211102466A CN116227467A CN 116227467 A CN116227467 A CN 116227467A CN 202211102466 A CN202211102466 A CN 202211102466A CN 116227467 A CN116227467 A CN 116227467A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- word
- training
- masked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 479
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 230000000873 masking effect Effects 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 373
- 239000013598 vector Substances 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 25
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 27
- 238000004519 manufacturing process Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011143 downstream manufacturing Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种模型的训练方法、文本处理方法及装置,模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法。预训练语言模型的训练方法包括:基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语;至少基于多个待掩码词语确定第一样本文本对应的多个备选词语;对多个待掩码词语进行掩码处理得到掩码文本;通过预训练语言模型,基于掩码文本以及多个备选词语,得到每个待掩码词语所在位置对应的预测词语;基于每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语,调整预训练语言模型的模型参数。本申请有利于提高预训练语言模型的训练效果。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型的训练方法、文本处理方法及装置。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,预训练语言模型取得了优异的效果。通过在一个原始任务上预先训练一个语言模型,保存语言模型的参数,然后在文本处理等目标任务上使用该预训练语言模型,针对该目标任务的特性,对该预训练语言模型进行精调,可以达到提高目标任务精度的目的。
为了减少对有标签样本数据的依赖以及提供预训练语言模型的通用性,目前主流的预训练语言模型的训练方式,主要采用自监督学习方式,通过随机删除样本文本中的词语来构造辅助任务训练集,然后通过预训练语言模型识别预测被删除的词语,从而对预训练语言模型进行训练,提升预训练语言模型对于语序特征的提取能力。
但是,在上述方式中,被删除的词语的预测空间为整个词表,在被删除的词语数量较多的情况下,计算复杂度会大大提高,并且,随机删除词语的方式使得预训练语言模型无法判断哪些词语会更有利于预训练语言模型的训练,进而使得预训练语言模型容易忽略对一部分词频范围的词语的理解和学习,同时也降低了对预训练语言模型的训练难度,从而导致预训练语言模型无法得到充分训练,模型训练效果不佳。
发明内容
本申请实施例的目的是提供一种模型的训练方法、文本处理方法及装置,模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法,有利于提高预训练语言模型的训练效果,且降低训练过程中的计算复杂度。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种预训练语言模型的训练方法,包括:
基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
通过预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
本申请实施例提供的预训练语言模型的训练方法,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语,不仅可以避免仅一定词频范围(比如高频)被掩码而导致预训练语言模型忽略对其他词频范围的词语的理解和学习,还可以增加对预训练语言模型的训练难度,从而使预训练语言模型得到充分训练,有利于提高预训练语言模型的训练效果;其次,至少基于第一样本文本中的多个待掩码词语确定多个备选词语,这些备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,并在对第一样本文本中的多个待掩码词语进行掩码处理之后,利用得到的掩码文本及多个备选词语共同对预训练语言模型进行训练,使得待这些待掩码词语的预测空间从整个词表转换为多个备选词语,可以降低训练过程中的计算复杂度。
第二方面,本申请实施例提供一种文本处理模型的训练方法,包括:
获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于第一方面所述的预训练语言模型的训练方法训练得到的;
通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
本申请实施例提供的文本处理模型的训练方法,在文本处理模型中增设通过上述预训练语言模型的训练方法训练得到的预训练语言模型,由于训练得到的预训练语言模型对于语序特征具有较强的提取能力,进而利用预训练语言模型对第二样本集中的第二样本文本进行编码,得到的表示向量可以准确表达出第二样本文本的语义;进一步,将预训练语言模型输出的表示向量用于文本处理模型中位于下游的任务处理模型执行目标文本处理任务,并基于得到的文本处理结果及第二样本文本的任务标签,调整文本处理模型的模型参数,使得预训练语言模型可以很好地适配任务处理模型,有利于提高文本处理模型的训练效果,从而有利于提高下游文本处理任务的处理准确率。
第三方面,本申请实施例提供一种文本处理方法,包括:
获取待处理文本;
通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于第一方面所述的预训练语言模型的训练方法进行训练得到。
本申请实施例提供的文本处理方法,由于上述文本处理模型的训练方法训练得到的模型具有较好的文本处理效果,利用该文本处理模型对待处理文本进行处理,有利于提高对待处理文本的处理准确率。
第四方面,本申请实施例提供一种预训练语言模型的训练装置,包括:确定单元,用于基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;掩码单元,用于对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;所述确定单元,还用于至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;所述确定单元,还用于通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;调整单元,用于基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
第五方面,本申请实施例提供一种文本处理模型的训练装置,包括:获取单元,用于获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;编码单元,用于通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于第一方面所述的预训练语言模型的训练方法训练得到的;处理单元,用于通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;调整单元,用于基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
第六方面,本申请实施例提供一种文本处理装置,包括:获取单元,用于获取待处理文本;处理单元,用于通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于第一方面所述的预训练语言模型的训练方法进行训练得到。
第七方面,本申请实施提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的预训练语言模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的文本处理模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如第三方面所述的文本处理方法。
第八方面,本申请实施提供一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的预训练语言模型的训练方法;或者,使得电子设备能够执行如第二方面所述的文本处理模型的训练方法;或者,使得电子设备能够执行如第三方面所述的文本处理方法。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一个实施例提供的一种预训练语言模型的训练方法的流程示意图;
图2为本申请的另一个实施例提供的一种预训练语言模型的训练方法的流程示意图;
图3为本申请的一个实施例提供的一种预训练语言模型的训练过程示意图;
图4为本申请的一个实施例提供的一种预测词语信息的示意图;
图5为本申请的一个实施例提供的一种文本处理模型的训练方法的流程示意图;
图6为本申请的一个实施例提供的一种文本处理模型的结构示意图;
图7为本申请的一个实施例提供的一种文本处理方法的流程示意图;
图8为本申请的一个实施例提供的一种预训练语言模型的训练装置的结构示意图;
图9为本申请的一个实施例提供的一种文本处理模型的训练装置的结构示意图;
图10为本申请的一个实施例提供的一种文本处理装置的结构示意图;
图11为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
部分概念说明:
有监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。有监督学习的训练数据集要求包括输入输出,也可以说是特征和目标。训练数据集中的目标是由人标注的。
无监督学习:输入的数据没有被标记,也没有确定的结构。样本数据类别未知,需要根据样本数据间的相似性对样本数据集进行分类,比如聚类(clustering),试图使类间差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本数据的标签,也就是说没有样本数据对应的类别,因而只能从原先没有标签的样本数据集开始学习分类器设计。
自监督学习(Self-supervised Learning,SSL):属于无监督学习范式的一种,旨在对于无标签的样本数据,通过设计辅助任务(Proxy tasks)来挖掘样本数据自身的表征特性作为监督信息,来提升模型的特征提取能力。注意:这里获取的监督信息不是指自监督学习所面对的原始任务标签,而是构造的辅助任务标签。
如前所述,为了减少对有标签样本数据的依赖以及提供预训练语言模型的通用性,目前主流的预训练语言模型的训练方式,主要采用自监督学习方式,通过随机删除样本文本中的词语来构造辅助任务训练集,然后通过预训练语言模型识别预测被删除的词语,从而对预训练语言模型进行训练,提升预训练语言模型对于语序特征的提取能力。但是,在上述方式中,被删除的词语的预测空间为整个词表,在被删除的词语数量较多的情况下,计算复杂度会大大提高,并且,随机删除词语的方式使得预训练语言模型无法判断哪些词语会更有利于预训练语言模型的训练,进而使得预训练语言模型容易忽略对一部分词频范围的词语的理解和学习,同时也降低了对预训练语言模型的训练难度,从而导致预训练语言模型无法得到充分训练,模型训练效果不佳。
有鉴于此,本申请实施例提出一种预训练语言模型的训练方法,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语,不仅可以避免仅一定词频范围(比如高频)被掩码而导致预训练语言模型忽略对其他词频范围的词语的理解和学习,还可以增加对预训练语言模型的训练难度,从而使预训练语言模型得到充分训练,有利于提高预训练语言模型的训练效果;其次,至少基于第一样本文本中的多个待掩码词语确定多个备选词语,这些备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,并在对第一样本文本中的多个待掩码词语进行掩码处理之后,利用得到的掩码文本及多个备选词语共同对预训练语言模型进行训练,使得待这些待掩码词语的预测空间从整个词表转换为多个备选词语,可以降低训练过程中的计算复杂度。
本申请实施例还提出一种文本处理模型的训练方法,在文本处理模型中增设通过上述预训练语言模型的训练方法训练得到的预训练语言模型,由于训练得到的预训练语言模型对于语序特征具有较强的提取能力,进而利用预训练语言模型对第二样本集中的第二样本文本进行编码,得到的表示向量可以准确表达出第二样本文本的语义;进一步,将预训练语言模型输出的表示向量用于文本处理模型中位于下游的任务处理模型执行目标文本处理任务,并基于得到的文本处理结果及第二样本文本的任务标签,调整文本处理模型的模型参数,使得预训练语言模型可以很好地适配任务处理模型,有利于提高文本处理模型的训练效果,从而有利于提高下游文本处理任务的处理准确率。
进一步,本申请实施例还提出一种文本处理方法,由于上述文本处理模型的训练方法训练得到的模型具有较好的文本处理效果,利用该文本处理模型对待处理文本进行处理,有利于提高对待处理文本的处理准确率。
应理解,本申请实施例提供的预训练语言模型的训练方法、文本处理模型的训练方法以及文本处理方法,均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如度列的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
以下结合附图,详细说明本申请各实施例提供的技术方案。
请参见图1,为本申请的一个实施例提供的一种预训练语言模型的训练方法的流程示意图,该方法可以包括如下步骤:
S102,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语。
其中,第一样本集可以包括多个第一样本文本。
对于第一样本集中的每个第一样本文本而言,该第一样本文本在第一样本集中的词频用于表示该第一样本文本在第一样本集中出现的次数。具体而言,在上述S102中,对于第一样本集中的每个第一样本文本,可对该第一样本文本进行分词处理,得到该第一样本文本包含的多个词语;进一步,通过对每个词语在第一样本集中出现的次数进行统计,即可确定出每个词语在第一样本集中的词频。实际应用中,对第一样本文本的分词处理,可利用本领域常用的分词工具实现,比如jieba、LAC等分词工具。
待掩码词语是指需要被掩码处理的词语。在本申请实施例中,可采用自监督训练方式,通过对第一样本文本中的部分词语进行掩码处理,由预训练语言模型基于第一样本文本中未被掩码处理的词语去预测被掩码处理的词语,从而对预训练语言模型进行训练,可以提升预训练语言模型对于语序特征的提取能力。
为了避免随机掩码导致的预训练语言模型忽略对其他词频范围的词语的理解和学习,以及为了增加对预训练语言模型的训练难度,可对应每个第一样本文本,基于该第一样本文本包含的词语在第一样本集中的词频,从该第一样本文本包含的词语中选取相应词频的词语,作为该第一样本文本的待掩码词语。
在一种可选的实现方式中,可以从第一样本文本中选取多个不同词频范围的词语,作为第一样本集中的待掩码词语。示例地,可从第一样本文本中分别选取高、中、低三个词频的词语,作为第一样本集中的待掩码词语。由此,使得预训练语言模型可以充分理解和学习不同词频范围的词语,从而有利于提高预训练语言模型的训练效果。
通过对现有的随机掩码实例进行分析发现,随机掩码的方式倾向于对高频词语进行掩码处理,进而使得预训练语言模型容易忽略对低频词语的理解和学习,为此,在另一种可选的实现方式中,为使预训练语言模型可以充分理解和学习高频词语和低频词语,从而提高预训练语言模型的训练效果,可采用随机掩码与基于词频掩码的方式,从第一样本文本中选取多个词语作为待掩码词语。具体而言,如图2所示,上述S102具体可以实现为:
S121,将第一样本文本划分为多个子文本。
对于第一样本文本的划分,可以采用任意适当的划分方式实现。
可选地,可按照第一样本文本的长度,将第一样本文本划分为多个子文本,其中,每个子文本的长度可以相同或者不同。示例地,若第一样本文本为“希腊的经济结构较特殊海运业雄踞全球之首”,划分后可得到子文本“希腊的经济结构较特殊”和“海运业雄踞全球之首”。
可选地,为确保划分得到的各个子文本的语义信息的完整性,以便能够被预训练语言模型准确理解,可根据第一样本文本中标点符号的数量,采用相应的划分方式,将第一样本文本划分为多个子文本。具体而言,若第一样本文本中标点符号的数量大于或等于预设数量阈值,则基于第一样本文本中的标点符号,将第一样本文本划分为多个子文本;若第一样本文本中标点符号的数量小于预设数量阈值,则基于第一样本文本的长度,将第一样本文本划分为多个子文本。更为具体地,可根据第一样本文本中表示结束和分隔的标点符号,比如句号“。”、感叹号“!”、分号“;”等,将第一样本文本划分为多个子文本。另外,预设数量阈值可以根据实际需要进行设置,例如预设数量阈值可以设置为2,本申请实施例对此不作限定。
示例地,第一样本文本为“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”,基于第一样本文本中的句号“。”,可将第一样本文本划分为如下多个子文本:“希腊的经济结构较特殊。”、“海运业雄踞全球之首,按吨位计占世界总数的17%。”、“另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”。
S122,对多个子文本进行分组,得到第一子文本组和第二子文本组。
具体而言,可基于上述多个子文本的数量,将上述多个子文本划分为两组,即第一子文本组和第二子文本组。示例地,若对第一样本文本划分后得到N个子文本,则可从这N个子文本中,选取N/2(若N不为偶数,则向上取整)的子文本加入到第一子文本组,选取另外N/2(若N不为偶数,则向下取整)的子文本加入到第二子文本组。
S123,从第一子文本组包含的子文本中随机选取至少一个词语,确定为第一样本文本中的待掩码词语。
为避免从第一子文本组的不同子文本中选取的待掩码词语重复,可依次遍历第一子文本组中的子文本,从当前遍历到的子文本中随机选取至少一个词语,若选取的词语与已有的待掩码词语不同,则将选取的词语作为待掩码词语,否则,重复对该子文本进行随机选词,直至选取的词语与已有的待掩码词语不重复。
S124,从第二子文本组包含的子文本中,选取词频满足预设词频条件的词语,确定为第一样本文本中的待掩码词语。
其中,预设词频条件可以根据实际需要进行设置,本申请实施例对此不作限定。示例地,预设词频条件可以为词频低于预设阈值或者在所属子文本中的词频最低等,本申请实施例对此不作限定。
示例地,为避免从第二子文本组的不同子文本中选取的待掩码词语重复,可依次遍历第二子文本组中的子文本,从当前遍历到的子文本中选取在该子文本中的词频最低的词语,若该词语与已有的待掩码词语不同,则将选取的词语作为待掩码词语,否则,从当前遍历的子文本中选取在该子文本中的词频第二低的词语,若该词语与已有的待掩码词语不同,则再次从当前遍历的子文本中选取在该子文本中的词频第三低的词语,依次类推,直至从当前遍历的子文本中选取的词语与已有的待掩码词语不同。
本申请实施例在此示出了上述S102的部分具体实现方式。当然,应理解,上述S102也可以采用其他的方式实现,本申请实施例对此不作限定。
S104,对第一样本文本中的多个待掩码词语进行掩码处理,得到第一样本文本对应的掩码文本。
在上述S104中,可通过任意适当的方式对第一样本文本中的多个待掩码词语进行掩码处理。
在一种可选的实现方式中,可将第一样本文本中的多个待掩码词语分别替换为预设掩码字符,得到第一样本文本对应的掩码文本。其中,预设掩码字符可以根据实际需要进行设置,例如可以设置为明显区别于第一样本文本中字符的其他字符。
示例地,假设从第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”中选取的多个待掩码词语包括“经济”、“雄踞”、“制造业”,那么,可以采用预设掩码字符“[M]”替换这些待掩码词语,由此得到该第一样本文本对应的掩码文本“希腊的[M]结构较特殊。海运业[M]全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,[M]规模相对较小。”。
可以理解的是,通过将待掩码词语替换为预设掩码字符,实现简便,有利于提高预训练语言模型的训练效率。
本申请实施例在此示出了上述S104的一种具体实现方式。当然,应理解,上述S104也可以采用其他的方式实现,本申请实施例对此不作限定。
S106,至少基于第一样本文本中的多个待掩码词语,确定第一样本文本对应的多个备选词语。
本申请实施例中,第一样本文本对应的多个备选词语用于供预训练语言模型参考以对待掩码词语进行预测,也就是说,上述多个备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,由此,可以将待掩码词语的预测空间从整个词表缩小到上述多个备选词语中,进而可以减小预训练语言模型在训练过程中的计算复杂度,从而提高训练效率以及节省计算资源。在上述S106中,第一样本文本对应的多个备选词语可通过任意适当的方式确定。
本申请实施例中,第一样本文本对应的多个备选词语至少包括第一样本文本中的每个待掩码词语对应的第一备选词语。
在一种可选的实现方式中,可以直接将第一样本文本中的多个待掩码词语分别作为第一样本文本对应的多个备选词语。
在另一种可选的实现方式中,如图2所示,可以分别调整第一样本中每个待掩码词语的字符顺序,得到每个待掩码词语对应的备选词语。
示例地,假设从第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”中选取的多个待掩码词语包括“经济”、“雄踞”、“制造业”,通过分别调整这些待掩码词语的字符顺序,可以得到这些待掩码词语对应的第一备选词语依次为“济经”、“踞雄”、“造业制”。
可以理解的是,在该实现方式中,通过打乱每个待掩码词语的字符顺序,得到相应的第一备选词语,由于第一备选词语在所有第一样本文本中均未出现过,使得预训练语言模型在对每个待掩码词语进行预测时,除了要为每个待掩码词语的位置选取合适的备选词语,还需要通过认知和理解第一样本文本的语义,将所选取的备选词语的字符顺序恢复到正确的字符顺序,由此不仅可以增加预训练语言模型的预测难度,还可以加强预训练语言模型对词语的认知能力和语义理解能力。
为进一步增加预训练语言模型的预测难度,以提升预训练语言模型的训练效果,第一样本文本对应的多个备选词语还可以包括第一样本文本对应的至少一个第二备选词语。相应地,上述S106还可以包括:如图2所示,基于第一样本集中每个第一样本文本包含的词语,确定第一样本集对应的词语集;从词语集中选取至少一个满足预设筛选条件的词语,以及基于满足预设筛选条件的词语,确定第一样本文本对应的第二备选词语,其中,预设筛选条件包括:第二备选词语与第一样本文本中的每个待掩码词语均不相同。
具体而言,可以直接将满足预设筛选条件的词语作为第一样本文本对应的第二备选词。示例地,假设从第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”中选取的多个待掩码词语包括“经济”、“雄踞”、“制造业”,那么,从词语集中可以选取词语“具体”作为该第一样本文本对应的第二备选词语。
当然,为了增加预训练语言模型的预测难度,也可以对满足预设筛选条件的词语的字符顺序进行调整,得到第一样本文本对应的第二备选词语。示例地,假设从第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”中选取的多个待掩码词语包括“经济”、“雄踞”、“制造业”,那么,从词语集中可以选取词语“具体”,对该词语的字符顺序调整后的词语“体具”,作为该第一样本文本对应的第二备选词语。
可以理解的是,通过从第一样本集对应的词语集中选取不同于已有的第一备选词语的词语作为第二备选词语,可以扩大每个待掩码词语的预测空间,使得预训练语言模型在对每个待掩码词语所在位置进行预测时,需要采用选词填空的方式在每个待掩码词语所在位置填入合适的备选词语,不仅可以增加预训练语言模型的预测难度,还使得预训练语言模型不仅需要关注局部词语的语义,还需要对局部词语在第一样本文本中的上下文有整体的理解,增强预训练语言模型对长距离整体语言的依赖和理解,从而有利于提高预训练语言模型对语序特征的表达能力。
需要说明的是,从第一样本集对应的词语集选取出不同于已有的第一备选词语的词语之后,还可以对选取的词语的字符顺序进行调整,将调整字符顺序后所得的词语作为第二备选词语。
本申请实施例在此示出了上述S106的部分具体实现方式。当然,应理解,上述S106也可以采用其他的方式实现,本申请实施例对此不作限定。
S108,通过预训练语言模型,基于第一样本文本对应的掩码文本及多个备选词语,确定第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
通过将第一样本文本对应的掩码文本及多个备选词语一起作为预训练语言模型的输入,使得预训练语言模型可以通过对掩码文本的整体语义以及各个备选词语的语义进行理解,采用“选词填空”的方式,从输入的多个备选词语中确定出合适的词语填入每个待掩码词语所在位置,以实现对待掩码词语的预测,得到每个待掩码词语所在位置对应的预测词语信息。由此,第一样本文本中每个待掩码词语的预测空间从整个词表缩小为多个备选词语,从而可以降低预训练语言模型的计算复杂度。
在一种可选的实现方式中,可对第一样本文本对应的掩码文本及多个备选词语进行拼接,得到第一样本文本对应的目标文本,然后将该目标文本输入预训练语言模型,由预训练语言模型,从多个备选词语中,从而得到第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
具体而言,为便于预训练语言模型从拼接得到的目标文本中准确理解掩码文本的整体语义以及各个备选词语的语义,在对掩码文本及多个备选词语进行拼接时,可在掩码文本的首个字符之前添加起始标识符[CLS],并在掩码字符的最后一个字符之后添加终止标识符[SEP];另外,还可在每个备选词语的最后一个字符之后添加表示每个备选词语的排列顺序的字符。进一步,对第一样本文本对应的掩码文本及其起始标识符和终止标识符以及每个备选词语及其排列顺序字符进行拼接,得到第一样本文本对应的目标文本。
示例地,假设第一样本文本对应的多个备选词语包括待掩码词语1对应的第一备选词语1和待掩码词语2对应的第一备选词语2,那么,第一样本文本对应的目标文本可以表示为:[CLS]掩码文本[SEP]第一备选词语1[01]第一备选词语2[02]。
在另一种可选的实现方式中,考虑到若直接按照每个待掩码词语在所属第一样本文本中的排列顺序,对每个掩码词语对应的第一备选词语进行排序后与掩码文本进行拼接,将会极大地降低预训练语言模型的预测难度,进而导致预训练语言模型无法得到充分训练,最终影响预训练语言模型的训练效果。为此,可打乱每个待掩码词语在所属第一样本文本中的排列顺序,使得每个待掩码词语对应的备选词语按照新的排列顺序与掩码文本进行拼接,从而可以提高预训练语言模型的预测难度,加强预训练语言模型对掩码文本的整体语义和每个备选词语的语义的理解,使得预训练语言模型得到充分训练,进一步提高预训练语言模型的训练效果。
具体而言,如图2所示,上述S108具体可以包括如下步骤:
S181,基于第一样本文本中每个待掩码词语所在位置,确定每个待掩码词语的目标排列顺序。
其中,第一样本文本中至少一个待掩码词语的目标排列顺序与其在第一样本文本中的排列顺序不同。
S182,基于第一样本文本中每个待掩码词语的目标排列顺序,对第一样本文本对应的掩码文本及多个备选词语进行拼接,得到第一样本文本对应的目标文本。
更为具体地,可按照第一样本文本中每个待掩码词语的目标排列顺序,对每个待掩码词语对应的第一备选词语进行排序后再与掩码文本进行拼接,得到第一样本文本对应的目标文本。
示例地,假设第一样本文本对应的多个备选词语包括待掩码词语1对应的第一备选词语1和待掩码词语2对应的第一备选词语2,待掩码词语1在第一样本文本中的排列顺序位于待掩码词语2之前,通过对待掩码词语1和待掩码词语2各自的排列顺序进行调整,得到目标排列顺序为:待掩码词语2->待掩码词语1;进一步,第一样本文本对应的目标文本可以表示为:[CLS]掩码文本[SEP]第一备选词语2[01]第一备选词语1[02]。
又如,仍以上述第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”为例,假设其待掩码词语包括“经济”、“雄踞”、“制造业”,这些待掩码词语对应的第一备选词语依次为“济经”、“踞雄”、“造业制”,那么,可以得到第一样本文本对应的目标文本为“[CLS]希腊的[M]结构较特殊。海运业[M]全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,[M]规模相对较小。[SEP]”踞雄[01]造业制[02]济经[03]。
当然,需要说明的是,第一样本文本对应的多个备选词语还可以包括第一样本文本对应的第二备选词语。在此情况下,可以将每个待掩码词语与第二备选词语一起进行顺序调整,然后按照调整后的目标排列顺序,对每个待掩码词语对应的第一备选词语和第二备选词语进行排序后再与掩码文本进行拼接,得到第一样本文本对应的目标文本。
示例地,仍以上述第一样本文本“希腊的经济结构较特殊。海运业雄踞全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,制造业规模相对较小。”为例,假设第一样本文本对应的第二备选词语包括“体具”,那么,可以得到第一样本文本对应的目标文本为“[CLS]希腊的[M]结构较特殊。海运业[M]全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,[M]规模相对较小。[SEP]”踞雄[01]造业制[02]济经[03]体具[04]。
S183,将第一样本文本对应的目标文本输入预训练语言模型,得到第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
本申请实施例中,每个待掩码词语所在位置对应的预测词语信息包括上述多个备选词语中与每个待掩码词语所在位置对应的目标备选词语及目标备选词语的预测字符顺序。具体地,每个待掩码词语所在位置对应的预测词语信息可以采用6位数字表示,其中,前两位数字表示目标备选词语,后四位数字表示目标备选词语的预测字符顺序。
示例地,如图4所示,将第一样本文本对应的目标文本“[CLS]希腊的[M]结构较特殊。海运业[M]全球之首,按吨位计占世界总数的17%。另外旅游、侨汇也是经济收入的重要组成部分,[M]规模相对较小。[SEP]”踞雄[01]造业制[02]济经[03]体具[04]”输入预训练语言模型,得到各个待掩码词语所在位置的预测词语信息依次为“031200”(即经济)、“012100”(即雄踞)以及“022310”(即制造业)。以“022310”为例,前两位数字“02”表示目标备选词语为排列顺序字符为02的备选词语“造业制”,后四位数字“2310”表示该备选词语的预测字符顺序为“制造业”。
需要说明的是,本申请实施例中的预训练语言模型可以为本领域常用的各种语言模型,例如包括但不限于BERT(Bidirectional Encoder Representations fromTransformerrs)模型、RoBerta模型、ERNIE模型、SpanBERT模型等。
本申请实施例在此示出了上述S108的一种具体实现方式。当然,应理解,上述S108也可以采用其他的方式实现,本申请实施例对此不作限定。
S110,基于第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整预训练语言模型的模型参数。
其中,预训练语言模型的模型参数可以包括预训练语言模型中各网络层的节点(如神经元)数量、不同网络层中的节点之间的连接关系以及连接边权重、各网络层中的节点对应的偏置等。
具体而言,如图3所示,预训练语言模型在预测第一样本文本中每个待掩码词语所在位置对应的词语时,不仅要从多个备选词语中选取合适的备选词语填入该位置,还需要将所填入词语的字符顺序恢复到正确的字符顺序。考虑到每种任务均可能产生一定的损失,基于此,为提高预训练语言模型的训练效果,在一种可能的实现方式中,如图2和图3所示,上述S110具体可以包括如下步骤:
S1101,基于第一样本集中每个第一样本文本包含的多个待掩码词语的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语,确定预训练语言模型的位置预测损失。
其中,预训练语言模型的位置预测损失可用于表示第一样本集中每个第一样本文本包含的多个待掩码词语各自的目标排列顺序与每个待掩码词语各自所在位置对应的目标备选词语的排列顺序之间的差异。
实际应用中,可基于第一预设损失函数、第一样本集中每个第一样本文本包含的多个待掩码词语各自的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语的排列顺序,确定预训练语言模型的位置预测损失。其中,第一预设损失函数可以根据实际需要进行设置,例如交叉熵损失函数等,本申请实施例对此不作限定。
S1102,基于第一样本集中每个第一样本文本包含的多个待掩码词语各自的字符顺序以及每个待掩码词语各自所在位置对应的目标备选词语的预测字符顺序,确定预训练语言模型的字符预测损失。
其中,预训练语言模型的字符预测损失可用于表示第一样本集中每个第一样本文本包含的多个待掩码词语与每个待掩码词语各自所在位置对应的目标备选词语之间在字符顺序上的差异。实际应用中,可基于第二预设损失函数、第一样本集中每个第一样本文本包含的多个待掩码词语以及每个待掩码词语各自所在位置对应的目标备选词语,确定预训练语言模型的字符预测损失。其中,第二预设损失函数可以根据实际需要进行设置,例如交叉熵损失函数等,本申请实施例对此不作限定。
S1103,基于字符预测损失和位置预测损失,确定预训练语言模型的模型损失。
示例地,可对预训练语言模型的字符预测损失和位置预测损失进行加权求和,得到预训练语言模型的模型损失。其中,字符预测损失和位置预测损失各自对应的损失权重可以根据实际需要进行设置,本申请实施例对此不作限定。
S1104,基于预训练语言模型的模型损失,调整预训练语言模型的模型参数。
具体而言,由于预训练语言模型的模型损失能够反映第一样本文本中的每个待掩码词语与预测出所得的每个待掩码词语所在位置的词语之间的差异,为得到高准确率的预训练语言模型,可采用反向传播算法,基于预训练语言模型的模型损失,调整预训练语言模型的模型参数。
更为具体地,在采用反向传播算法调整预训练语言模型的模型参数时,可将使预训练语言模型的模型损失下降为目标,可基于预训练语言模型的模型损失和预训练语言模型当前的模型参数,依次调整预训练语言模型中各网络的相关参数。
本申请实施例在此示出了上述S110的一种具体实现方式。当然,应理解,上述S110也可以采用其他的方式实现,本申请实施例对此不作限定。
需要说明的是,上述过程仅为一次模型参数调整过程,实际应用中,可能需要对预训练语言模型的模型参数进行多次调整,因而可重复执行上述S102至S110多次,直至满足预设第一训练停止条件,由此完成对预训练语言模型的训练。其中,第一预设训练停止条件可以包括预训练语言模型的模型损失小于预设损失阈值或者调整次数达到预设次数等,具体可根据实际需要进行设置,本申请实施例对此不作限定。
本申请实施例提供的预训练语言模型的训练方法,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语,不仅可以避免仅一定词频范围(比如高频)被掩码而导致预训练语言模型忽略对其他词频范围的词语的理解和学习,还可以增加对预训练语言模型的训练难度,从而使预训练语言模型得到充分训练,有利于提高预训练语言模型的训练效果;其次,至少基于第一样本文本中的多个待掩码词语确定多个备选词语,这些备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,并在对第一样本文本中的多个待掩码词语进行掩码处理之后,利用得到的掩码文本及多个备选词语共同对预训练语言模型进行训练,使得待这些待掩码词语的预测空间从整个词表转换为多个备选词语,可以降低训练过程中的计算复杂度。
需要说明的是,本申请实施例提供的预训练语言模型的训练方法,可应用于各种文本处理场景中,比如文本分类场景、基于文本的阅读理解场景、文本摘要生成、智能应答等,本申请实施例对此不作限定。
基于本申请实施例提供的预训练语言模型的训练方法,本申请实施例还提供一种文本处理模型的训练方法。下面对文本处理模型的训练过程进行详细说明。
请参见图5,为本申请的一个实施例提供的一种文本处理模型的训练方法的流程示意图,该方法可以包括:
S502,获取第二样本集。
其中,第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签。每个第二样本文本携带的任务标签用于表示每个第二样本文本在目标文本处理任务下对应的期望处理结果。目标文本处理任务可以例如包括但不限于如下任务中的至少一种:文本分类任务、文本摘要生成任务、基于文本的阅读理解任务、智能应答任务等。
同一个第二样本文本在不同的目标文本处理任务下对应的任务标签不同。例如,若目标文本处理任务为文本分类,那么,每个第二样本文本在该目标文本处理任务下对应的任务标签为每个第二样本文本的真实类别;又如,若目标文本处理任务为文本摘要生成,那么,每个第二样本文本在该目标文本处理任务下对应的任务标签为每个第二样本文本的期望文本摘要,等等。
S504,通过文本处理模型中的预训练语言模型对第二样本集中的每个第二样本文本进行编码,得到每个第二样本文本对应的表示向量。
其中,预训练语言模型为基于上述本申请实施例所述的预训练语言模型的训练方法训练得到的。由于通过本申请实施例提供的预训练语言模型的训练方法训练得到的预训练语言模型对于语序特征具有较强的提取能力,通过将第二样本文本集中的各个第二样本文本输入该预训练语言模型,由该预训练语言模型对各个第二样本文本进的语序特征进行提取并对提取的特征进行向量表示,得到的表示向量即可准确表达对应的第二样本文本的语义,从而为下游处理任务提供有力的数据支撑,有利于提高下游处理任务的准确率。
S506,通过文本处理模型中的任务处理模型,基于第二样本集中每个第二样本文本对应的表示向量执行目标文本处理任务,得到每个第二样本文本对应的文本处理结果。
其中,任务处理模型为与预训练语言模型匹配的、用于执行下游的目标文本处理任务的模型。任务处理模型根据目标文本处理任务的不同而不同。例如,若目标文本处理任务为文本分类,那么,任务处理模型为文本分类模型,通过将预训练语言模型得到的第二样本文本的表示向量输入该任务处理模型,即可得到第二样本文本的预测类别;又如,若目标文本处理任务为文本摘要生成,那么,任务处理模型为摘要生成模型,通过将预训练语言模型得到的第二样本文本的表示向量输入该任务处理模型,即可得到第二样本文本的文本摘要。
S508,基于第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整文本处理模型的模型参数。
其中,文本处理模型的模型参数包括预训练语言模型的模型参数和任务处理模型的模型参数。预训练语言模型的模型参数已在上文进行解释说明,在此不再赘述。任务处理模型的模型参数可以包括任务处理模型中各网络层的节点(如神经元)数量、不同网络层中的节点之间的连接关系以及连接边权重、各网络层中的节点对应的偏置等。
具体而言,如图6所示,在上述S508中,可基于第三预设损失函数、第二样本集中每个第二样本文本对应的文本处理结果及任务标签,确定文本处理模型的模型参数,其中,文本处理模型的模型参数用于表示第二样本集中每个第二样本文本对应的文本处理结果与每个第二样本文本对应的任务标签之间的差异;进一步,基于文本处理模型的模型损失,调整文本处理模型的模型参数。
更为具体地,可采用反向传播算法,基于预训练语言模型的模型损失,调整预训练语言模型的模型参数。示例地,在采用反向传播算法调整预训练语言模型的模型参数时,可将使预训练语言模型的模型损失下降为目标,可基于预训练语言模型的模型损失和预训练语言模型当前的模型参数,依次调整预训练语言模型中各网络的相关参数。
本申请实施例在此示出了上述S508的一种具体实现方式。当然,应理解,上述S508也可以采用其他的方式实现,本申请实施例对此不作限定。
需要说明的是,上述过程仅为一次模型参数调整过程,实际应用中,可能需要对文本处理模型的模型参数进行多次调整,因而可重复执行上述S502至S508多次,直至满足预设第二训练停止条件,由此完成对文本处理模型的训练。其中,第二预设训练停止条件可以包括文本处理模型的模型损失小于预设损失阈值或者调整次数达到预设次数等,具体可根据实际需要进行设置,本申请实施例对此不作限定。
本申请实施例提供的文本处理模型的训练方法,利在文本处理模型中增设通过上述预训练语言模型的训练方法训练得到的预训练语言模型,由于训练得到的预训练语言模型对于语序特征具有较强的提取能力,进而利用预训练语言模型对第二样本集中的第二样本文本进行编码,得到的表示向量可以准确表达出第二样本文本的语义;进一步,将预训练语言模型输出的表示向量用于文本处理模型中位于下游的任务处理模型执行目标文本处理任务,并基于得到的文本处理结果及第二样本文本的任务标签,调整文本处理模型的模型参数,使得预训练语言模型可以很好地适配任务处理模型,有利于提高文本处理模型的训练效果,从而有利于提高下游文本处理任务的处理准确率。
本申请实施例还提供一种文本处理方法,能够基于上述文本处理模型的训练方法训练得到的文本处理模型,对待处理文本执行相应的文本处理任务。请参见图7,为本申请的一个实施例提供的一种文本处理方法的流程示意图,该方法可以包括如下步骤:
S702,获取待处理文本。
其中,待处理文本是指需要进行文本处理的文本。
S704,通过文本处理模型,对待处理文本执行目标文本处理任务,得到待处理文本对应的文本处理结果。
其中,目标文本处理任务可以例如包括但不限于如下任务中的至少一种:文本分类任务、文本摘要生成任务、基于文本的阅读理解任务、智能应答任务等。
待处理文本对应的文本处理结果根据目标文本处理任务的不同而不同。例如,若目标文本处理任务为文本分类,那么,待处理文本对应的文本处理结果为待处理文本的预测类别;又如,若目标文本处理任务为文本摘要生成,那么,待处理文本对应的文本处理结果为待处理文本的文本摘要,等等。其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于上述本申请实施例所述的预训练语言模型的训练方法进行训练得到。
任务处理模型根据目标文本处理任务的不同而不同。例如,若目标文本处理任务为文本分类,那么,任务处理模型为文本分类模型,通过将预训练语言模型得到的待处理文本的表示向量输入该任务处理模型,即可得到待处理文本的预测类别;又如,若目标文本处理任务为文本摘要生成,那么,任务处理模型为摘要生成模型,通过将预训练语言模型得到的待处理文本的表示向量输入该任务处理模型,即可得到待处理文本的文本摘要。
本申请实施例提供的文本处理方法,由于上述文本处理模型的训练方法训练得到的模型具有较好的文本处理效果,利用该文本处理模型对待处理文本进行处理,有利于提高对待处理文本的处理准确率。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,与上述图1所示的预训练语言模型的训练方法相对应地,本申请实施例还提供一种预训练语言模型的训练装置。请参见图8,为本申请的一个实施例提供的一种预训练语言模型的训练装置800的结构示意图,该装置800包括:
确定单元810,用于基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
掩码单元820,用于对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
所述确定单元810,还用于至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
所述确定单元810,还用于通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
调整单元830,用于基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
可选地,所述确定单元,基于第一样本文本包含的词语在所述第一样本文本所属的第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,包括:
将所述第一样本文本划分为多个子文本;
对所述多个子文本进行分组,得到第一子文本组和第二子文本组;
从所述第一子文本组包含的子文本中随机选取至少一个词语,确定为所述第一样本文本中的待掩码词语;
从所述第二子文本组包含的子文本中选取词频满足预设词频条件的词语,确定为所述第一样本文本中的待掩码词语。
可选地,所述确定单元,将所述第一样本文本划分为多个子文本,包括:
若所述第一样本文本中标点符号的数量大于或等于预设数量阈值,则基于所述标点符号,将所述第一样本文本划分为多个子文本;
若所述第一样本文本中标点符号的数量小于所述预设数量阈值,则基于所述第一样本文本的长度,将所述第一样本文本划分为多个子文本。
可选地,所述第一样本文本对应的多个备选词语至少包括所述第一样本文本中每个待掩码词语对应的第一备选词语;
所述确定单元,通过预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息,包括:
基于所述第一样本文本中每个待掩码词语所在位置,确定所述每个待掩码词语的目标排列顺序,所述第一样本文本中至少一个待掩码词语的目标排列顺序与其在所述第一样本文本中的排列顺序不同;
基于所述第一样本文本中每个待掩码词语的目标排列顺序,对所述第一样本文本对应的掩码文本以及所述第一样本文本对应的多个备选词语进行拼接,得到所述第一样本文本对应的目标文本;
将所述第一样本文本对应的目标文本输入所述预训练语言模型,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
可选地,所述确定单元,至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,包括:
分别调整所述第一样本文本中每个待掩码词语的字符顺序,得到所述每个待掩码词语对应的第一备选词语。
可选地,所述第一样本文本对应的多个备选词语还包括所述第一样本文本对应的至少一个第二备选词语;
所述确定单元,至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,还包括:
基于所述第一样本集中每个第一样本文本包含的词语,确定所述第一样本集对应的词语集;
从所述词语集中选取至少一个满足预设筛选条件的词语,所述预设筛选条件包括:所述第二备选词语与所述第一样本文本中的每个待掩码词语均不相同;
基于所述满足预设筛选条件的词语,确定所述第一样本文本对应的第二备选词语。
可选地,所述每个待掩码词语所在位置对应的预测词语信息包括所述多个备选词语中与所述每个待掩码词语所在位置对应的目标备选词语及所述目标备选词语的预测字符顺序;
所述调整单元,基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数,包括:
基于所述第一样本集中每个第一样本文本包含的每个待掩码词语的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语,确定所述预训练语言模型的位置预测损失;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语各自的目标字符顺序以及每个待掩码词语各自所在位置对应的目标备选词语的预测字符顺序,确定所述预训练语言模型的字符预测损失;
基于所述字符预测损失和所述位置预测损失,确定所述预训练语言模型的模型损失;
基于所述预训练语言模型的模型损失,调整所述预训练语言模型的模型参数。
可选地,所述掩码单元,对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本,包括:
将所述第一样本文本中的多个待掩码词语分别替换为预设掩码字符,得到所述第一样本文本对应的掩码文本。
显然,本申请实施例提供的预训练语言模型的训练装置能够作为图1所示的预训练语言模型的训练方法的执行主体,例如图1所示的预训练语言模型的训练方法中,步骤S102、步骤S106和步骤S108可由图8所示的预训练语言模型的训练装置中的确定单元执行,步骤S104可由图8所示的预训练语言模型的训练装置中的掩码单元执行,步骤S110可由图8所示的预训练语言模型的训练装置中的调整单元执行。
根据本申请的另一个实施例,图8所示的预训练语言模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,预训练语言模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的预训练语言模型的训练装置,以及来实现本申请实施例的预训练语言模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的预训练语言模型的训练装置,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语,不仅可以避免仅一定词频范围(比如高频)被掩码而导致预训练语言模型忽略对其他词频范围的词语的理解和学习,还可以增加对预训练语言模型的训练难度,从而使预训练语言模型得到充分训练,有利于提高预训练语言模型的训练效果;其次,至少基于第一样本文本中的多个待掩码词语确定多个备选词语,这些备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,并在对第一样本文本中的多个待掩码词语进行掩码处理之后,利用得到的掩码文本及多个备选词语共同对预训练语言模型进行训练,使得待这些待掩码词语的预测空间从整个词表转换为多个备选词语,可以降低训练过程中的计算复杂度。
此外,与上述图5所示的文本处理模型的训练方法相对应地,本申请实施例还提供一种文本处理模型的训练装置。请参见图9,为本申请的一个实施例提供的一种文本处理模型的训练装置900的结构示意图,该装置900包括:
获取单元910,用于获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
编码单元920,用于通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于本申请实施例所述的预训练语言模型的训练方法训练得到的;
处理单元930,用于通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
调整单元940,用于基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
显然,本申请实施例提供的文本处理模型的训练装置能够作为图5所示的文本处理模型的训练方法的执行主体,例如图5所示的文本处理模型的训练方法中,步骤S502可由图9所示的文本处理模型的训练装置中的获取单元执行,步骤S504可由图9所示的文本处理模型的训练装置中的编码单元执行,步骤S506可由图9所示的文本处理模型的训练装置中的处理单元执行,步骤S508可由图9所示的文本处理模型的训练装置中的调整单元执行。
根据本申请的另一个实施例,图9所示的文本处理模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本处理模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的文本处理模型的训练装置,以及来实现本申请实施例的文本处理模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的文本处理模型的训练装置,在文本处理模型中增设通过上述预训练语言模型的训练方法训练得到的预训练语言模型,由于训练得到的预训练语言模型对于语序特征具有较强的提取能力,进而利用预训练语言模型对第二样本集中的第二样本文本进行编码,得到的表示向量可以准确表达出第二样本文本的语义;进一步,将预训练语言模型输出的表示向量用于文本处理模型中位于下游的任务处理模型执行目标文本处理任务,并基于得到的文本处理结果及第二样本文本的任务标签,调整文本处理模型的模型参数,使得预训练语言模型可以很好地适配任务处理模型,有利于提高文本处理模型的训练效果,从而有利于提高下游文本处理任务的处理准确率。
此外,与上述图7所示的文本处理方法相对应地,本申请实施例还提供一种文本处理装置。请参见图10,为本申请的一个实施例提供的一种文本处理装置1000的结构示意图,该装置1000包括:
获取单元1010,用于获取待处理文本;
处理单元1020,用于通过文本处理模型,对所述待处理文本,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于上述预训练语言模型的训练方法进行训练得到。
显然,本申请实施例提供的文本处理装置能够作为图7所示的文本处理方法的执行主体,例如图7所示的文本处理方法中,步骤S702可由图10所示的文本处理装置中的获取单元执行,步骤S704可由图10所示的文本处理装置中的处理单元执行。
根据本申请的另一个实施例,图10所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图7所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
本申请实施例提供的文本处理装置,由于上述文本处理模型的训练方法训练得到的模型具有较好的文本处理效果,利用该文本处理模型对待处理文本进行处理,有利于提高对待处理文本的处理准确率。
图11是本申请的一个实施例电子设备的结构示意图。请参考图11,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成预训练语言模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
通过预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于本申请实施例所述的预训练语言模型的训练方法训练得到的;
通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待处理文本;
通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于本申请实施例所述的预训练语言模型的训练方法进行训练得到。
上述如本申请图1所示实施例揭示的预训练语言模型的训练装置执行的方法,或者,上述如本申请图5所示实施例揭示的文本处理模型的训练装置执行的方法,或者,上述如本申请图7所示实施例揭示的文本处理装置执行的方法,均可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现预训练语言模型的训练装置在图1所示实施例的功能,或者,该电子设备还可执行图5的方法,并实现文本处理模型的训练装置在图5所示实施例的功能,或者,该电子设备还可执行图7的方法,并实现文本处理装置在图7所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
通过预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:
获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于本申请实施例所述的预训练语言模型的训练方法训练得到的;
通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图7所示实施例的方法,并具体用于执行以下操作:
获取待处理文本;
通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于本申请实施例所述的预训练语言模型的训练方法进行训练得到。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (15)
1.一种预训练语言模型的训练方法,其特征在于,包括:
基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述基于第一样本文本包含的词语在所述第一样本文本所属的第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,包括:
将所述第一样本文本划分为多个子文本;
对所述多个子文本进行分组,得到第一子文本组和第二子文本组;
从所述第一子文本组包含的子文本中随机选取至少一个词语,确定为所述第一样本文本中的待掩码词语;
从所述第二子文本组包含的子文本中选取词频满足预设词频条件的词语,确定为所述第一样本文本中的待掩码词语。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一样本文本划分为多个子文本,包括:
若所述第一样本文本中标点符号的数量大于或等于预设数量阈值,则基于所述标点符号,将所述第一样本文本划分为多个子文本;
若所述第一样本文本中标点符号的数量小于所述预设数量阈值,则基于所述第一样本文本的长度,将所述第一样本文本划分为多个子文本。
4.根据权利要求1所述的方法,其特征在于,所述第一样本文本对应的多个备选词语至少包括所述第一样本文本中每个待掩码词语对应的第一备选词语;
所述通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息,包括:
基于所述第一样本文本中每个待掩码词语所在位置,确定所述每个待掩码词语的目标排列顺序,所述第一样本文本中至少一个待掩码词语的目标排列顺序与其在所述第一样本文本中的排列顺序不同;
基于所述第一样本文本中每个待掩码词语的目标排列顺序,对所述第一样本文本对应的掩码文本以及所述第一样本文本对应的多个备选词语进行拼接,得到所述第一样本文本对应的目标文本;
将所述第一样本文本对应的目标文本输入所述预训练语言模型,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
5.根据权利要求4所述的方法,其特征在于,所述至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,包括:
分别调整所述第一样本文本中每个待掩码词语的字符顺序,得到所述每个待掩码词语对应的第一备选词语。
6.根据权利要求5所述的方法,其特征在于,所述第一样本文本对应的多个备选词语还包括所述第一样本文本对应的至少一个第二备选词语;
所述至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,还包括:
基于所述第一样本集中每个第一样本文本包含的词语,确定所述第一样本集对应的词语集;
从所述词语集中选取至少一个满足预设筛选条件的词语,所述预设筛选条件包括:所述第二备选词语与所述第一样本文本中的每个待掩码词语均不相同;
基于所述满足预设筛选条件的词语,确定所述第一样本文本对应的第二备选词语。
7.根据权利要求4所述的方法,其特征在于,所述每个待掩码词语所在位置对应的预测词语信息包括所述多个备选词语中与所述每个待掩码词语所在位置对应的目标备选词语及所述目标备选词语的预测字符顺序;
所述基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数,包括:
基于所述第一样本集中每个第一样本文本包含的每个待掩码词语的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语,确定所述预训练语言模型的位置预测损失;
基于所述第一样本集中每个第一样本文本包含的多个待掩码词语各自的字符顺序以及每个待掩码词语各自所在位置对应的目标备选词语的预测字符顺序,确定所述预训练语言模型的字符预测损失;
基于所述字符预测损失和所述位置预测损失,确定所述预训练语言模型的模型损失;
基于所述预训练语言模型的模型损失,调整所述预训练语言模型的模型参数。
8.根据权利要求1~7中任一项所述的方法,其特征在于,所述对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本,包括:
将所述第一样本文本中的多个待掩码词语分别替换为预设掩码字符,得到所述第一样本文本对应的掩码文本。
9.一种文本处理模型的训练方法,其特征在于,包括:
获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于权利要求1~8中任一项所述的预训练语言模型的训练方法训练得到的;
通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
10.一种文本处理方法,其特征在于,包括:
获取待处理文本;
通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行所述目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于权利要求1~8中任一项所述的预训练语言模型的训练方法进行训练得到。
11.一种预训练语言模型的训练装置,其特征在于,包括:
确定单元,用于基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
掩码单元,用于对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
所述确定单元,还用于至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
所述确定单元,还用于通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
调整单元,用于基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
12.一种文本处理模型的训练装置,其特征在于,包括:
获取单元,用于获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
编码单元,用于通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于权利要求1~8中任一项所述的预训练语言模型的训练方法训练得到的;
处理单元,用于通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
调整单元,用于基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
13.一种文本处理装置,其特征在于,包括:
获取单元,用于获取待处理文本;
处理单元,用于通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于权利要求1~8中任一项所述的预训练语言模型的训练方法进行训练得到。
14.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的预训练语言模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求9所述的文本处理模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求10所述的文本处理方法。
15.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的预训练语言模型的训练方法;或者,使得电子设备能够执行如权利要求9所述的文本处理模型的训练方法;或者,使得电子设备能够执行如权利要求10所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211102466.3A CN116227467A (zh) | 2022-09-09 | 2022-09-09 | 模型的训练方法、文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211102466.3A CN116227467A (zh) | 2022-09-09 | 2022-09-09 | 模型的训练方法、文本处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116227467A true CN116227467A (zh) | 2023-06-06 |
Family
ID=86586014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211102466.3A Pending CN116227467A (zh) | 2022-09-09 | 2022-09-09 | 模型的训练方法、文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227467A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227484A (zh) * | 2023-05-09 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、设备、存储介质和计算机程序产品 |
CN118132685A (zh) * | 2024-05-07 | 2024-06-04 | 恒生电子股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
-
2022
- 2022-09-09 CN CN202211102466.3A patent/CN116227467A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227484A (zh) * | 2023-05-09 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、设备、存储介质和计算机程序产品 |
CN118132685A (zh) * | 2024-05-07 | 2024-06-04 | 恒生电子股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783582B (zh) | 一种知识库对齐方法、装置、计算机设备及存储介质 | |
CN111241851A (zh) | 语义相似度确定方法、装置及处理设备 | |
CN110968654B (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
CN116227467A (zh) | 模型的训练方法、文本处理方法及装置 | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN114548296A (zh) | 一种基于自适应框架的图卷积推荐方法及相关装置 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN114707041A (zh) | 消息推荐方法、装置、计算机可读介质及电子设备 | |
CN117540825A (zh) | 基于强化学习的预训练模型的构建方法及装置和电子设备 | |
CN116308738B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN112100509A (zh) | 信息推荐方法、装置、服务器和存储介质 | |
CN116127316A (zh) | 模型的训练方法、文本摘要生成方法及相关设备 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN114912513A (zh) | 一种模型训练的方法、识别信息的方法及装置 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN114090781A (zh) | 基于文本数据的容斥事件检测方法和装置 | |
CN113344197A (zh) | 一种识别模型的训练方法、业务执行的方法以及装置 | |
CN112417260A (zh) | 本地化推荐方法、装置及存储介质 | |
CN114385903B (zh) | 应用账号的识别方法、装置、电子设备及可读存储介质 | |
CN113836289B (zh) | 一种实体演进规律推荐方法及装置 | |
CN117851578B (zh) | 一种信息服务方法、装置及电子设备 | |
CN118193757B (zh) | 一种任务执行方法、装置、存储介质及电子设备 | |
CN116827894B (zh) | 广播剧用户评论信息发送方法、装置、设备和介质 | |
CN116127369A (zh) | 分类模型解释方法、文本生成模型的训练方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |