CN115186675A - 语言模型训练及自然语言任务处理方法、装置及相关设备 - Google Patents

语言模型训练及自然语言任务处理方法、装置及相关设备 Download PDF

Info

Publication number
CN115186675A
CN115186675A CN202210819636.3A CN202210819636A CN115186675A CN 115186675 A CN115186675 A CN 115186675A CN 202210819636 A CN202210819636 A CN 202210819636A CN 115186675 A CN115186675 A CN 115186675A
Authority
CN
China
Prior art keywords
placeholder
character
training text
features
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210819636.3A
Other languages
English (en)
Inventor
许光辉
杜倩云
梅林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Original Assignee
Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd filed Critical Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority to CN202210819636.3A priority Critical patent/CN115186675A/zh
Publication of CN115186675A publication Critical patent/CN115186675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语言模型训练及自然语言任务处理方法、装置及相关设备,区别于传统的以掩码字符对应的编码特征来预测目标字符的方式,本案改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义。同时,本申请也可以通过第一占位符提取到训练文本整体的语义,使得提取到的最终特征同时包含了全局和局部语义特征,特征更加丰富、准确。应用于下游任务时,能够更好的区分相似语义的文本。

Description

语言模型训练及自然语言任务处理方法、装置及相关设备
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种语言模型训练及自然语言任务处理方法、装置及相关设备。
背景技术
自然语言处理是人工智能领域的重要研究方向,其核心目的是教机器“读懂”人类日常使用的自然语言,如输入两句话,让机器判断这两句话是否语义相关,等。传统深度学习采用监督学习的训练方式,依赖大量精确标注数据,然而精确标注数据在实际应用中数据量较少,且存在标注规范不统一、标注时间长、标注精度差等问题。因此,无监督语言模型开始兴起,其先利用大量无标注语料学习通用的语义理解能力,再利用少量精标注数据进行微调,使得深度学习模型在众多任务上都表现出与人类相当甚至超越人类的性能。
目前使用最多的语言模型以Transformer为例,其在输入文本的开头添加[CLS]占位符,并其基于自注意力机制建模上下文语义信息,通过预训练可以使得[CLS]占位符编码了输入文本的全局信息,基于此,后续利用[CLS]占位符对应的编码信息,来进行下游任务的处理,如做分类任务等。但是,本案发明人研究发现,这种训练方式虽然能够通过[CLS]占位符编码输入文本的全局信息,但是并未考虑输入文本局部的差异对上下文语义的影响,导致模型对相似文本无法很好的进行区分,示例如对于两条文本“高温低压”和“高压低温”,这两条文本的语义是完全相反的,但是按照现有语言模型训练方式,其认为两条文本整体上包含的字符都有且形式上十分相似,进而输出的该两条文本的全局编码特征比较接近,在经过下游的比对模型处理后,给出两条文本语义相似的结果,可知,该结果明显是错误的。
发明内容
鉴于上述问题,提出了本申请以便提供一种语言模型训练及自然语言任务处理方法、装置及相关设备,以解决现有语言模型仅能够提取输入文本的全局特征而忽略了局部特征,导致提取的特征不够准确,进而影响下游任务处理结果的问题。
第一方面,提供了一种语言模型训练方法,包括:
对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
第二方面,提供了一种自然语言任务处理方法,包括:
获取待处理的任务文本;
利用上述训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
第三方面,提供了一种语言模型训练装置,包括:
训练文本编辑单元,用于对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
编码特征确定单元,用于确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
编码特征处理单元,用于利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
预测单元,用于基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
第四方面,提供了一种自然语言任务处理装置,包括:
任务文本获取单元,用于获取待处理的任务文本;
任务文本处理单元,用于利用上述训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
特征融合单元,用于将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
任务处理单元,用于利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
第五方面,提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语言模型训练方法,或实现如上所述的自然语言任务处理方法的各个步骤。
第六方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语言模型训练方法,或实现如上所述的自然语言任务处理方法的各个步骤。
借由上述技术方案,本申请区别于传统的以掩码字符对应的编码特征来预测目标字符的方式,改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义,本申请中也将第二占位符对应的编码特征定义为局部语义特征。与此同时,本申请也可以通过第一占位符提取到训练文本整体的语义,即全局语义特征,综上,按照本申请的方法所训练得到的语言模型,能够通过第一占位符提取输入文本的全局语义特征,通过第二占位符提取输入文本的局部语义特征,相比于现有技术仅能够提取全局语义特征,本申请额外提取了局部语义特征,使得提取到的最终特征同时包含了全局和局部语义特征,特征更加丰富、准确。
在此基础上,下游的任务处理模块可以基于全局语义特征和局部语义特征融合后的融合语义特征,进行指定任务的处理,由于融合语义特征包含的信息更加丰富、更加准确,因此得到的下游任务处理结果也更加准确,尤其是对相似语义文本的识别判断,基于该融合语义特征,能够更好的区分相似语义的文本。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的语言模型训练方法的一流程示意图;
图2示例了一种语言模型训练过程示意图;
图3示例了一种语言模型和下游任务模块联合训练过程示意图;
图4为本申请实施例公开的一种语言模型训练装置结构示意图;
图5为本申请实施例公开的一种自然语言任务处理装置结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种语言模型训练方案,以及基于该语言模型的下游自然语言任务处理方案,通过本申请的语言模型训练方案,能够基于训练后的语言模型提取输入文本的全局语义特征和局部语义特征,使得提取的特征更加丰富、准确。在此基础上,将全局语义特征和局部语义特征进行融合,基于融合后语义特征进行下游自然语言任务的处理,如分类任务:语义相似度判断、下一句子预测、句子分类、自然语言推断等。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的语言模型训练方法可以包括如下步骤:
步骤S100、对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本。
其中,根据下游自然语言任务的不同,一次输入至语言模型的训练文本的条数可以是一条也可以是多条。训练文本中随机选取的目标字符在编辑后训练文本中用设定掩码字符替代,示例如,设定掩码字符可以用[MASK]表示。进一步地,编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符。
其中,第一占位符可以用[CLS]表示,第二占位符可以用[SEP]表示。
可以理解的是,若训练文本是一条,则直接在训练文本的前面添加[CLS],在训练文本的后面添加[SEP]即可。若训练文本是两条及以上,则在首条训练文本的前面添加[CLS],在每条训练文本的末尾添加[SEP],形式如:
[CLS]训练文本1[SEP]训练文本2[SEP]训练文本3[SEP]…
两条训练文本之间通过第二占位符[SEP]间隔开。
步骤S110、确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征。
具体地,编辑后训练文本中包含几种不同类型的字符,分别是:第一、第二占位符、掩码字符、训练文本包含的各字符。对于编辑后训练文本中的每个字符,均确定字符对应的编码特征,也即将字符转换为语言模型可以识别的编码向量表示。
步骤S120、利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征。
其中,语言模型可以包括多个隐层,分别对输入的各字符的编码特征进行深层次特征的提取,直至最后一个隐层提取到各个字符的深层次的编码特征。本步骤中,定义第一占位符对应的编码特征为全局语义特征,第二占位符对应的编码特征为局部语义特征。
其中,所述全局语义特征用于表示所述训练文本整体的语义,也即,本申请可以通过设置语言模型的隐层结构,使得第一占位符可以关注到其余各字符的信息,从而编码训练文本中各字符的完备的全局信息。
所述局部语义特征用于表示所述训练文本中局部的语义。本实施例中,通过下述步骤S130中的训练方式,利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义,本申请中也将第二占位符对应的编码特征定义为局部语义特征。
步骤S130、基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
可以理解的是,语言模型掩码训练过程,即对[MASK]所在位置的字符进行恢复的过程,更多的是考察语言模型的局部信息处理能力。现有技术基于[MASK]字符的编码特征,来预测对应的原始目标字符。本申请区别于现有技术,采用[MASK]字符所在训练文本末尾处的第二占位符[SEP]对应的编码特征来预测[MASK]字符对应的原始目标字符,使得第二占位符[SEP]对应的编码特征能够表示训练文本中局部的语义,也即第二占位符[SEP]对应的编码特征可以作为训练文本的局部语义特征。
基于上述介绍可知,本申请的训练方法能够实现语言模型同时提取输入文本的全局语义特征和局部语义特征,即实现全局-局部特征的联合增强,特征更加丰富、准确。
进一步,下游的任务处理模块可以基于全局语义特征和局部语义特征融合后的融合语义特征,进行指定任务的处理,由于融合语义特征包含的信息更加丰富、更加准确,因此得到的下游任务处理结果也更加准确,尤其是对相似语义文本的识别判断,基于该融合语义特征,能够更好的区分相似语义的文本,提升模型对相似语义文本的区分判断能力。
在本申请的一些实施例中,对上述步骤S100,对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本的过程进行介绍。
本申请实施例提供了两种编辑方式,分别如下:
第一种、
S1、在首条训练文本的起始字符前添加第一占位符,在每条训练文本的末尾添加第二占位符,得到包含占位符的训练文本。
前文已经说明,根据下游自然语言处理任务的不同,一次输入语言模型的训练文本的可以是一条或多条。
本实施例中以下游自然语言处理任务为相似文本判断为例进行说明,则每次输入至语言模型的训练文本包含两条,即需要进行相似文本判断的两条文本,示例如两条文本分别为:“高温低压”、“高压低温”。
添加第一占位符[CLS]和第二占位符[SEP]后的训练文本为:
[CLS]高温低压[SEP]高压低温[SEP]
S2、将所述包含占位符的训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到编辑后训练文本。
本实施例中在训练语言模型时,采用让语言模型预测掩码对应的原始字符的方式进行训练。为此,本步骤中进一步将上述包含占位符的训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符进行替代,得到编辑后训练文本。
由于在语言模型训练过程,本申请是以掩码字符所在训练文本的末尾处的第二占位符对应的编码特征,来预测掩码字符对应的原始的目标字符,为此,在对训练文本进行随机目标字符掩码时,对于每一条训练文本可以随机选择最多一个目标字符进行掩码。定义掩码字符为[MASK],则对上一步骤得到的训练文本进行掩码处理后,得到的编辑后训练文本如下:
[CLS]高温低压[SEP]高[MASK]低温[SEP]
通过该示例可知,对于第一条训练文本“高温低压”并未进行掩码,对于第二条训练文本“高压低温”,随机选择了其中的“压”进行掩码。
第二种、
S1、将每条训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到掩码后训练文本。
仍以上述训练文本“高温低压”、“高压低温”为例,本步骤处理后得到的掩码后训练文本如下:
训练文本1:高温低压
训练文本2:高[MASK]低温
S2、在首条掩码后训练文本的起始字符前添加第一占位符,在每条掩码后训练文本的末尾添加第二占位符,得到编辑后训练文本。
对上一步骤的掩码后训练文本进行占位符添加后,得到的编辑后训练文本如下:
[CLS]高温低压[SEP]高[MASK]低温[SEP]
在本申请的一些实施例中,对上述步骤S110,确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征的过程进行介绍。
本实施例中介绍了三种类型的字符的编码特征,分别如下:
字符编码特征:字符编码特征表示字符本身的含义。
片段编码特征:片段编码特征表示字符所在训练文本的排序顺序。示例如,第一条训练文本中各字符的片段编码特征可以表示为1111,第二条训练文本中各字符的片段编码特征可以表示为2222。
位置编码特征:位置编码特征表示字符在编辑后训练文本中的位置。
本实施例中提供了两种位置编码特征的表示方式,分别如下:
第一种、
采用与训练文本长度相关的静态编码。训练文本中各字符的位置编码特征,与字符在训练文本中的位置顺序相关。
示例如编辑后训练文本如下:
[CLS]高温低压[SEP]高[MASK]低温[SEP]
则从[CLS]至最后一个[SEP]共11个字符,从左到右各字符的位置编码特征可以分别表示为0、1、2、3…10。
分析可知,按照本实施例的位置编码特征的表示方式,对于内容不同但长度相同的两条编辑后训练文本,其相同位置的不同字符的编码特征相同,这就会导致语言模型无法从位置编码特征中学习到更多有价值的信息。
为此,本实施例中提供了另一种位置编码特征的表示方式,如下:
第二种、
确定所述编辑后训练文本中的分词及各分词的排序顺序;对于编辑后训练文本中每个字符,按照字符所在分词的排序顺序,确定字符的位置编码特征。
仍以上述示例的编辑后训练文本为例进行说明:
[CLS]高温低压[SEP]高[MASK]低温[SEP]
该编辑后训练文本中的分词包括“[CLS]”、“高温”、“低压”、“[SEP]”、“高[MASK]”、“低温”、“[SEP]”。其中需要注意的是对于“高[MASK]”,由于该掩码[MASK]对应的目标字符为“温”,而“高温”属于一个分词,因此将“高[MASK]”也作为一个分词。
则结合图2示例的语言模型训练过程示意图可知,编辑后训练文本中的11个字符从左到右的位置编码特征可以分别表示为0、1、1、2、2、3、4、4、5、5、6。
基于上述实施例介绍的三种类型的编码特征,在得到每个字符的字符编码特征、片段编码特征和位置编码特征之和,可以进一步将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合,得到每个字符融合后的编码特征,参考图2可知,将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合后,得到的融合后编码特征输入至语言模型。
语言模型对各字符提取深层次的编码特征,并利用[MASK]所在的第二条训练文本末尾的第二占位符[SEP],预测[MASK]对应的原始字符,得到预测出的结果“低”。
在本申请的一些实施例中,对上述步骤S120,利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征的过程进行介绍。
为了使得第一占位符可以编码到全局语义特征,本实施例中可以配置语言模型的网络结构,以使得在对编辑后训练文本进行处理过程,编辑后训练文本中的每个字符,分别与其余各字符进行注意力attention处理,得到每个字符融合其余字符含义后的特征表示。基于此,可以建模上下文语义信息。
其中,由第一占位符对应的字符融合其余字符含义后的特征表示,作为全局语义特征,由第二占位符对应的字符融合其余字符含义后的特征表示,作为局部语义特征。
可选的例子中,语言模型可以采用与Transformer模型类似的网络结构,以实现第一占位符可以编码得到全局语义特征的目的。区别于传统的Transformer模型,本申请并非基于[MASK]字符的编码特征表示来预测[MASK]对应的原始的目标字符,而是基于第二占位符的编码特征表示来预测[MASK]对应的原始的目标字符,从而使得第二占位符可以编码局部语义特征,进而将第二占位符的编码特征表示定义为局部语义特征。
在本申请的一些实施例中,进一步对本案的语言模型训练方法进行介绍。
前述实施例介绍了语言模型预训练的过程,经过预训练后的语言模型,局部提取输入文本的全局语义特征和局部语义特征的能力。在此基础上,本实施例可以进一步基于语言模型对下游任务处理模块进行微调,微调阶段,使用训练后的语言模型输出的全局加局部语义特征,提升下游任务处理模块对相似文本的区分能力。
具体地,在得到训练后的语言模型之后,可以进一步包括如下步骤:
S1、利用训练后的语言模型处理添加了第一、第二占位符后的训练文本,得到第一占位符对应的全局语义特征和第二占位符对应的局部语义特征。
具体地,按照本申请设计的语言模型,其输入文本均需要进行第一、第二占位符的添加,其中第一占位符和第二占位符的添加方式可以参照前文介绍,此处不再赘述。
本步骤中的训练文本可以采用前述对语言模型训练过程中所使用的训练文本,也可以采用其它的训练文本,对此不做严格限定。
对训练文本添加第一、第二占位符之后,输入到训练后的语言模型中,可以得到语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征。
可以理解的是,若输入的训练文本为一条,则第二占位符也仅有一个,对应的局部语义特征仅有一个。若输入的训练文本为多条,则对应的第二占位符的个数与输入的训练文本的条数相同,得到的局部语义特征的个数与第二占位符的个数相同。
S2、将所述全局语义特征和所述局部语义特征进行融合,得到融合后语义特征。
S3、将所述融合后语义特征输入下游的任务处理模块,得到任务处理模块预测的任务处理结果,以所述预测的任务处理结果趋近于所述训练文本对应的样本标签为目标,对任务处理模块的网络参数进行微调。
结合图3所示,对该微调阶段进行说明:
以训练文本包括“高温低压”和“高压低温”两句话为例。对训练文本添加第一占位符[CLS]和第二占位符[SEP],并按照字符进行分割后,得到的输入如图3所示。
经过语言模型处理后,可以得到第一占位符和两个第二占位符对应的编码特征,定义第一占位符对应的全局语义特征表示为T[CLS]。为了区分两个不同的第二占位符对应的编码特征,定义第一个[SEP]对应的局部语义特征表示为T[SEP1],第二个[SEP]对应的局部语义特征表示为T[SEP2]
将T[CLS]、T[SEP1]和T[SEP2]融合,得到融合后语义特征为T融合
下游的任务模块可以是判断两个输入文本的语义是否相同,将融合后语义特征为T融合输入任务模块,任务模块给出预测结果,示例如用0表示语义不同,用1表示语义相同。
对于输入的训练文本,其携带有语义是否相同的标签,进而任务模块可以基于预测的结果和标签进行网络参数的微调。
在本申请的一些实施例中,进一步提供了一种自然语言任务处理方法,可以包括如下步骤:
S1、获取待处理的任务文本。
具体地,根据任务处理模块所需处理的自然语言任务的不同,本步骤中获取的待处理的任务文本的条数也可能不同。示例如,自然语言任务为句子分类时,则待处理的任务文本可以是一条,也即需要进行分类的句子。再比如,自然语言任务为文本语义相似性判断时,则待处理的任务文本可以是两条,也即需要进行语义相似性判断的两个输入文本。
S2、利用训练后的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征。
本步骤中,语言模型可以采用前述各实施例的训练方法训练得到。在利用语言模型处理任务文本时,可以将任务文本按照前述方式先添加第一、第二占位符,之后再由语言模型进行处理。语言模型可以输出第一占位符对应的全局语义特征,以及第二占位符对应的局部语义特征。
可以理解的是,每条任务文本的末尾均添加有第二占位符,因此模型输出的第二占位符对应的局部语义特征的个数,与任务文本的条数相同。
S3、将所述全局语义特征及局部语义特征进行融合,得到融合语义特征。
具体地,特征融合的方式可以是将全局语义特征和局部语义特征进行拼接。通过特征的融合,使得融合语义特征包含的信息更加丰富,对相似语义的文本的区分能力更强。
若任务文本包含1条文本,则语言模型输出的全局语义特征为1个,局部语义特征为1个。
若任务文本包含N条文本,N≥2,则语言模型输出的全局语义特征为1个,输出的局部语义特征包括与各条文本末尾的第二占位符对应的共N个局部语义特征。在此基础上,本步骤中将所述全局语义特征及局部语义特征进行融合,得到融合语义特征的过程,具体包括:
将全局语义特征及N个局部语义特征进行融合,得到融合语义特征。
S4、利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
具体地,预配置的任务处理模块可以是进行指定自然语言任务处理的网络模块,如分类模型,基于分类模型处理的结果,即分类任务处理结果。该任务处理模块可以是在语言模型训练完毕后,采用标注数据进行微调处理后的任务处理模块。
本步骤中可以将融合语义特征输入至任务处理模块,得到模块输出的具体的任务处理结果。
由于任务处理模块采用的是融合有任务文本的全局语义特征和局部语义特征的融合语义特征进行相关处理,该融合语义特征表达能力更强,对语义相似文本的区分能力也更强,最终得到的任务处理结果也更加准确。
下面对本申请实施例提供的语言模型训练装置进行描述,下文描述的语言模型训练装置与上文描述的语言模型训练方法可相互对应参照。
参见图4,图4为本申请实施例公开的一种语言模型训练装置结构示意图。
如图4所示,该装置可以包括:
训练文本编辑单元11,用于对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
编码特征确定单元12,用于确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
编码特征处理单元13,用于利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
预测单元14,用于基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
可选的,上述训练文本编辑单元对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本的过程,可以包括:
在首条训练文本的起始字符前添加第一占位符,在每条训练文本的末尾添加第二占位符,得到包含占位符的训练文本;
将所述包含占位符的训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到编辑后训练文本;
或,
将每条训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到掩码后训练文本;
在首条掩码后训练文本的起始字符前添加第一占位符,在每条掩码后训练文本的末尾添加第二占位符,得到编辑后训练文本。
可选的,上述编码特征确定单元确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征的过程,可以包括:
对于编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符:分别确定字符的字符编码特征、片段编码特征和位置编码特征,其中,所述字符编码特征表示字符本身的含义,所述片段编码特征表示字符所在训练文本的排序顺序,所述位置编码特征表示字符在编辑后训练文本中的位置;
将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合,得到每个字符融合后的编码特征。
可选的,上述编码特征确定单元确定字符的位置编码特征的过程,可以包括:
确定所述编辑后训练文本中的分词及各分词的排序顺序;
对于编辑后训练文本中每个字符,按照字符所在分词的排序顺序,确定字符的位置编码特征。
可选的,上述编码特征处理单元利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征的过程,可以包括:
利用语言模型将所述编辑后训练文本中的每个字符,分别与其余各字符进行注意力attention处理,得到每个字符融合其余字符含义后的特征表示,其中,由第一占位符对应的字符融合其余字符含义后的特征表示,作为全局语义特征,由第二占位符对应的字符融合其余字符含义后的特征表示,作为局部语义特征。
可选的,本申请的装置还可以包括下游任务微调单元,用于:
利用训练后的语言模型处理添加了第一、第二占位符后的训练文本,得到第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
将所述全局语义特征和所述局部语义特征进行融合,得到融合后语义特征;
将所述融合后语义特征输入下游的任务处理模块,得到任务处理模块预测的任务处理结果,以所述预测的任务处理结果趋近于所述训练文本对应的样本标签为目标,对任务处理模块的网络参数进行微调。
下面对本申请实施例提供的自然语言任务处理装置进行描述,下文描述的自然语言任务处理装置与上文描述的自然语言任务处理方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种自然语言任务处理装置结构示意图。
如图5所示,该装置可以包括:
任务文本获取单元21,用于获取待处理的任务文本;
任务文本处理单元22,用于利用前述实施例训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
特征融合单元23,用于将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
任务处理单元24,用于利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
本申请实施例提供的语言模型训练装置或自然语言任务处理装置可应用于电子设备,如终端:手机、电脑等。可选的,图6示出了电子设备的硬件结构框图,参照图6,电子设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于执行前述语言模型训练方法的各个步骤,或执行前述自然语言任务处理方法的各个步骤。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于执行前述语言模型训练方法的各个步骤,或执行前述自然语言任务处理方法的各个步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种语言模型训练方法,其特征在于,包括:
对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
2.根据权利要求1所述的方法,其特征在于,所述对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,包括:
在首条训练文本的起始字符前添加第一占位符,在每条训练文本的末尾添加第二占位符,得到包含占位符的训练文本;
将所述包含占位符的训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到编辑后训练文本;
或,
将每条训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到掩码后训练文本;
在首条掩码后训练文本的起始字符前添加第一占位符,在每条掩码后训练文本的末尾添加第二占位符,得到编辑后训练文本。
3.根据权利要求1所述的方法,其特征在于,确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征,包括:
对于编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符:分别确定字符的字符编码特征、片段编码特征和位置编码特征,其中,所述字符编码特征表示字符本身的含义,所述片段编码特征表示字符所在训练文本的排序顺序,所述位置编码特征表示字符在编辑后训练文本中的位置;
将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合,得到每个字符融合后的编码特征。
4.根据权利要求3所述的方法,其特征在于,确定字符的位置编码特征的过程,包括:
确定所述编辑后训练文本中的分词及各分词的排序顺序;
对于编辑后训练文本中每个字符,按照字符所在分词的排序顺序,确定字符的位置编码特征。
5.根据权利要求1所述的方法,其特征在于,所述利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征,包括:
利用语言模型将所述编辑后训练文本中的每个字符,分别与其余各字符进行注意力attention处理,得到每个字符融合其余字符含义后的特征表示,其中,由第一占位符对应的字符融合其余字符含义后的特征表示,作为全局语义特征,由第二占位符对应的字符融合其余字符含义后的特征表示,作为局部语义特征。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
利用训练后的语言模型处理添加了第一、第二占位符后的训练文本,得到第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
将所述全局语义特征和所述局部语义特征进行融合,得到融合后语义特征;
将所述融合后语义特征输入下游的任务处理模块,得到任务处理模块预测的任务处理结果,以所述预测的任务处理结果趋近于所述训练文本对应的样本标签为目标,对任务处理模块的网络参数进行微调。
7.一种自然语言任务处理方法,其特征在于,包括:
获取待处理的任务文本;
利用权利要求1-6任一项训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
8.根据权利要求7所述的方法,其特征在于,所述任务处理模块为分类模型;
所述利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果,包括:
利用所述分类模型,基于所述融合语义特征进行分类任务处理,得到分类任务处理结果。
9.根据权利要求7所述的方法,其特征在于,
所述任务文本包含1条文本,则所述语言模型输出的全局语义特征为1个,局部语义特征为1个;
或,
所述任务文本包含N条文本,N≥2,则所述语言模型输出的全局语义特征为1个,输出的局部语义特征包括与各条文本末尾的第二占位符对应的共N个局部语义特征;
所述将所述全局语义特征及局部语义特征进行融合,得到融合语义特征,包括:
将所述全局语义特征及N个局部语义特征进行融合,得到融合语义特征。
10.一种语言模型训练装置,其特征在于,包括:
训练文本编辑单元,用于对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
编码特征确定单元,用于确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
编码特征处理单元,用于利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
预测单元,用于基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
11.一种自然语言任务处理装置,其特征在于,包括:
任务文本获取单元,用于获取待处理的任务文本;
任务文本处理单元,用于利用权利要求1-6任一项训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
特征融合单元,用于将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
任务处理单元,用于利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
12.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~6中任一项所述的语言模型训练方法,或实现如权利要求7~9中任一项所述的自然语言任务处理方法的各个步骤。
13.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~6中任一项所述的语言模型训练方法,或实现如权利要求7~9中任一项所述的自然语言任务处理方法的各个步骤。
CN202210819636.3A 2022-07-13 2022-07-13 语言模型训练及自然语言任务处理方法、装置及相关设备 Pending CN115186675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210819636.3A CN115186675A (zh) 2022-07-13 2022-07-13 语言模型训练及自然语言任务处理方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210819636.3A CN115186675A (zh) 2022-07-13 2022-07-13 语言模型训练及自然语言任务处理方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN115186675A true CN115186675A (zh) 2022-10-14

Family

ID=83518545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210819636.3A Pending CN115186675A (zh) 2022-07-13 2022-07-13 语言模型训练及自然语言任务处理方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN115186675A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN117891900A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法及文本处理模型训练方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116051859B (zh) * 2023-02-21 2023-09-08 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN117891900A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法及文本处理模型训练方法

Similar Documents

Publication Publication Date Title
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN110717017B (zh) 一种处理语料的方法
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN115186675A (zh) 语言模型训练及自然语言任务处理方法、装置及相关设备
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN114678061A (zh) 基于预训练语言模型的蛋白质构象感知表示学习方法
CN114461804B (zh) 一种基于关键信息与动态路由的文本分类方法、分类器及系统
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113704508A (zh) 多媒体信息识别方法、装置、电子设备及存储介质
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN113626553B (zh) 一种基于预训练模型的级联二进制中文实体关系提取方法
CN112632962B (zh) 人机交互系统中实现自然语言理解方法和装置
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination