CN115017914A - 语言处理方法、装置、电子设备以及存储介质 - Google Patents
语言处理方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN115017914A CN115017914A CN202210592935.8A CN202210592935A CN115017914A CN 115017914 A CN115017914 A CN 115017914A CN 202210592935 A CN202210592935 A CN 202210592935A CN 115017914 A CN115017914 A CN 115017914A
- Authority
- CN
- China
- Prior art keywords
- trained
- task
- language processing
- inferred
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请公开了一种语言处理方法、装置、电子设备以及存储介质,涉及机器学习技术领域。该方法包括:确定待推理任务,获取与待理任务对应的待推理语料,将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。本申请通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型,对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。
Description
技术领域
本申请涉及机器学习技术领域,更具体地,涉及一种语言处理方法、装置、电子设备以及存储介质。
背景技术
随着机器学习技术的发展,语言处理领域出现了各种各样的语言模型,用于对语言或文本进行预测。相关技术中,存在利用语言模型对语言或文本进行预测成本高的问题。
发明内容
鉴于上述问题,本申请提出了一种语言处理方法、装置、电子设备以及存储介质,以解决上述问题。
第一方面,本申请实施例提供了一种语言处理方法,所述方法包括:确定待推理任务;获取与所述待推理任务对应的待推理语料;将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
第二方面,本申请实施例提供了一种语言处理装置,所述装置包括:任务确定模块,用于确定待推理任务;推理语料获取模块,用于获取与所述待推理任务对应的待推理语料;推理结果获取模块,用于将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行上述方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例提供的语言处理方法、装置、电子设备以及存储介质,通过确定待推理任务;获取与待推理任务对应的待推理语料;将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务,从而通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型,对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请一实施例提供的语言处理方法的流程示意图;
图2示出了执行本申请一实施例提供的语言处理方法的已训练的语言处理模型的结构框图;
图3示出了本申请一实施例提供的语言处理方法的流程示意图;
图4示出了本申请一实施例提供的语言处理方法的流程示意图;
图5示出了本申请一实施例提供的语言处理方法的流程示意图;
图6示出了本申请一实施例提供的语言处理方法的流程示意图;
图7示出了本申请一实施例提供的语言处理装置的模块框图;
图8示出了本申请实施例用于执行根据本申请实施例的语言处理方法的电子设备的框图;
图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的语言处理方法的程序代码的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
自然语言处理(Natural Language Processing,NLP)领域中,文本表征学习是一个关键技术。NLP领域通过文本表征学习能将用户量化,文本表征学习技术结合人工神经网络(Artificial Neural Network,ANN)可以快速从大量级的索引库中检索相关物料。目前,文本表征学习技术在搜索粗召、对话语义理解等领域大量应用,具有好的文本表征学习能力能让搜索更为精准可靠。
目前,由于大规模的预训练语言模型的语言处理效果优异,大规模的预训练语言模型的应用逐步变得流行。示例性的,大规模预训练语言模型BERT的使用方式是:经过预训练后,使用实际的任务场景数据进行微调,完成微调后将整个模型部署上线,即一个任务一个模型的方式。然而,大规模预训练语言模型BERT按照一个任务一个模型的方式部署成本非常高,发明人经研究发现,每新上线一个大规模预训练语言模型,需要增加20张T4显卡才能支撑现实的应用场景。
经发明人的研究发现,由于大规模预训练语言模型的空间和时间复杂度较高,大规模预训练语言模型部署上成本非常高,在线语言处理仍会因为计算量大耗时严重。同时由于一个完整的语言处理系统需要多个任务协同完成,实际运用中不能每一个任务都部署一个大规模预训练语言模型,即大规模预训练语言模型的可迁移性和灵活性不足。再有由于大规模预训练语言模型优化的阶段都集中在模型的训练阶段,对大规模预训练语言模型训练的参数量大,获得效果优异的大规模预训练语言模型的成本较高。因此,相关技术中,存在利用语言模型对语言或文本进行预测成本高的问题。
针对上述问题,发明人经过长期的研究发现,并提出了本申请实施例提供的语言处理方法、装置、电子设备以及存储介质,通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。其中,具体的语言处理方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一实施例提供的语言处理方法的流程示意图。该语言处理方法通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。在具体的实施例中,该语言处理方法可以应用于如图7所示的语言处理装置200以及配置有语言处理装置200的电子设备100(图8)。
下面将以电子设备作为执行主体为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备具备数据计算、处理和存储能力。该电子设备可以是诸如个人计算机(Personal Computer,PC)、平板电脑、智能手机、可穿戴设备、智能机器人等终端;也可以是服务器,在此不做限定。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。下面将针对图1所示的流程进行详细的阐述,所述语言处理方法具体可以包括以下步骤:
步骤S110:确定待推理任务。
在一些实施方式中,电子设备利用语言模型对自然语言进行处理。其中,自然语言处理(NLP)的领域可以包括自然语言理解(Natural Language Understanding,NLU)、文本分析、搜索引擎、知识图谱、对话管理系统、推荐系统、基于知识库的问答系统、基于搜索的问答系统等。
在一些实施方式中,电子设备的处理器确定利用语言模型进行语言处理的待推理任务。其中,待推理任务是指电子设备对语言或文本进行预测要求达到的结果;待推理任务可以是对语言或文本提取语义,也可以是对语言或文本进行文本分类,还可以是对语言或文本及进行命名实体识别,还可以是对语言或文本进行语义相似度计算,在此不做限定。
在一些实施方式中,电子设备可以包括推理任务选择控件。其中,电子设备的处理器检测该任务选择控件的受控情况,根据该受控情况确定语言处理的待推理任务。
在一些实施方式中,电子设备可以根据应用场景确定语言处理的待推理任务。如,电子设备应用于定位导航,电子设备根据该应用环境确定语言处理的待推理任务(如,命名实体识别任务、语义相似度任务等)。
步骤S120:获取与所述待推理任务对应的待推理语料。
其中,与待推理任务对应的推理语料是指电子设备执行待推理任务的对象,即电子设备对待推理语料执行对应的待推理任务。
其中,语料,即语言材料,是语言学研究的内容、是构成语料库的基本单元,语料可以是一定数量和规模的文本资源和语言资源的集合。可选地,待推理语料可以是语言,也可以是文本,还可以是文本和语言,在此不作限定。
在一些实施方式中,电子设备获取与待推理任务对应的待推理语料可以是,电子设备预先存储并设置有语料,电子设备的处理器从该语料中获取与待推理任务对应的待推理语料;也可以是电子设备通过无线通信(如,无线保真(Wireless Fidelity,WiFi)、蓝牙、紫蜂等)技术从相关联的云端或电子设备获得;还可以是电子设备通过串口通信接口(如串行外设接口(Serial Peripheral Interface,SPI)等)、数据传输器(如通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)等)等从相关联的设备获得,在此不作限定。
步骤S130:将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
在本申请实施例中,电子设备的处理器将待推理语料输入已训练的语言模型,获得已训练的语言模型输出的与待训练人物相关的推理结果,即电子设备利用已训练的语言处理模型对待处理语料执行待推理任务,以获得与待推理任务相关的推理结果。
其中,与待推理任务相关的推理结果指由与待推理任务适配的检测头输出的结果,即电子设备利用已训练的语言处理模型执行待推理任务的结果。示例性的,与待推理任务相关的推理结果可以是,与文本分类任务对应的对待推理语料文本分类的结果、与命名实体识别任务对应的对待推理语料命名实体识别的结果等。
在一些实施方式中,电子设备可以预先存储并设置有已训练的语言处理模型,电子设备也可以通过无线通信技术从相关联的云端或电子设备获得已训练的语言处理模型,电子设备还可以通过无线通信接口从相关联的电子设备获得已训练的语言处理模型。
在本申请实施例中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。
其中,主干网络可以是预训练语言模型,如微信伺候服务器(Electronic MailOperator,Elmo)、全局唯一标识分区表(GUID Partition Table,GPT)、BERT等预训练语言模型,主干网络可以是通过MLM(网络营销模式)、NSP(网络服务提供商)等预训练任务,获得的用于提取语料中通用的、泛化的语义信息的网络。
可选地,已训练的主干网络可以是大规模的预训练语言模型的局部,如,已训练的主干网络为大规模的预训练语言模型的前N层变压器编码器层、大规模的预训练语言模型的20%或者30%。
可选地,与已训练的主干网络连接的多个已训练的检测头,可以是采用对应主干网络的参数作为初始化参数训练获得的,也可以是经过主干网络蒸馏获得的。
其中,多个已训练的检测头分别适配不同的推理任务,即各已训练的检测头适配对应的推理任务。检测头适配的推理任务可以是文本分类、命名实体识别、语义相似度计算等,在此不作限定。检测头可以是条件随机场,可以是预训练语言模型的变压器编码器层,还可以是几层卷积神经网络,在此处不作限定。
示例性的,与已训练的主干网络连接的多个已训练的检测头包括:由几层卷积神经网络构成、适配文本分类任务的检测头,由条件随机场(Conditional Random Field,CRF)构成的适配命名实体识别任务的检测头,由变压器编码器层构成、适配语义相似度计算任务的检测头等。
示例性的,请参阅图2,将待推理语料(X)输入已训练的语言处理模型(PTM-sub-model),获得已训练的语言处理模型输出的与待推理任务相关的推理结果(Y1、Y2、......、YN)。其中,已训练的语言处理模型(PTM-sub-model)包括已训练的主干网络(PTM)以及分别与已训练的主干网络连接的多个已训练的检测头(任务1检测头(sub-model)、任务2检测头(sub-model)、......、任务N检测头(sub-model)),多个已训练的检测头分别适配不同的推理任务。
应当理解的是,在本申请实施例中,电子设备利用已训练的语言处理模型对语言进行处理,只需要一个统一、通用的主干网络以及分别适配不同的推理任务的检测头,降低了电子设备在线语言处理服务部署的成本,提高了电子设备中自然语言处理系统的可控性和灵活性,降低了电子设备中自然语言处理系统每一个推理任务在线运行的负担。
本申请一实施例提供的语言处理方法,通过确定待推理任务,获取与待推理任务对应的待推理语料,将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。从而通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。
请参阅图3,图3示出了本申请一实施例提供的语言处理方法的流程示意图。该方法以上述电子设备为执行主体,下面将针对图3所示的流程进行详细的阐述,所述语言处理方法具体可以包括以下步骤:
步骤S210:确定待推理任务。
在一些实施方式中,自然语言处理系统的任务可以包括序列标注任务、分类任务、句子关系判断任务以及生成式任务中的至少一种。在本申请实施例中,待推理任务可以是自然语言处理系统包括的任务中的一种或多种,在此不作限定。
其中,序列标注任务可以包括命名实体识别、分词、词性标注等;分类任务可以包括文本分类、情感分类等;句子关系判断任务可以包括句法分析、蕴含关系判断等;生成式任务可以包括机器翻译、文本摘要、阅读理解、语音识别等。
步骤S220:获取与所述待推理任务对应的待推理语料。
其中,步骤S220的具体描述请参阅步骤S120,在此不再赘述。
步骤S230:从所述多个已训练的检测头中,确定与所述待推理任务对应的已训练的检测头,作为已训练的目标检测头。
在一些实施方式中,电子设备利用已训练的语言处理模型执行待推理任务,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。
在一些实施方式中,电子设备确定待推理任务后,电子设备的处理器可以根据确定的待推理任务,从已训练的语言处理模型包括的多个检测头中,选取适配电子设备确定的待推理任务的检测头作为已训练的目标检测头,以针对性地获得已训练的语言处理模型输出的推理结果,提高电子设备获取语言处理结果的效率。
在一些实施方式中,已训练的检测头可以包括与适配的推理任务对应的标识。其中,电子设备确定待推理任务后,电子设备可以从多个已训练的检测头中,检测与该待推理任务对应的标识,根据与该待推理任务对应的标识确定与待推理任务对应的已训练的检测头,作为已训练的目标检测头。
步骤S240:将所述待推理语料输入所述已训练的主干网络,获得所述已训练的主干网络输出的所述待推理语料的特征信息。
在一些实施方式中,已训练的主干网络可以是电子设备利用已训练的语言处理模型进行语言处理的通用网络;已训练的主干网络可以是大型预训练语言模型的局部,电子设备拆解大型预训练语言模型的局部进行语言处理,提高了电子设备语言处理的准确率,提高了大型预训练语言模型的可迁移性。
电子设备将待推理语料输入已训练的主干网络,获得已训练的主干网络输出的待推理语料对应的特征信息。其中,待推理语料的特征信息,可以是待推理语料通用的、泛化的语义信息,可以是待推理语料中句子表征的信息。
可以理解的是,电子设备可以利用主干网络提取待推理语料的特征信息,以减小电子设备对待推理语料的存储空间,降低电子设备对语言处理的耗时。
在一些实施方式中,电子设备将待推理语料输入已训练的主干网络,在已训练的语言处理模型中已训练的主干网络对应的下线压力大的情况下,可以通过已训练的主干网络对待推理预料中大批量的高频句子进行提前计算,进而降低电子设备语言处理的性能压力,缓解电子设备语言处理的短板效应,提升电子设备语言处理的在线性能。
步骤S250:将所述待推理语料的特征信息输入所述已训练的目标检测头,获得所述已训练的目标检测头输出的与所述待推理任务相关的推理结果。
其中,与待推理任务相关的推理结果可以是,与文本分类任务相关的对待推理语料进行文本分类的结果,也可以是与命名实体识别任务相关的对待推理语料进行命名实体识别的结果,还可以是与语义相似度任务相关的对待推理语料进行语义相似度计算的结果,在此不作限定。
在一些实施方式中,电子设备可以将待推理语料的特征信息输入与电子设备确定的待推理任务对应的已训练的目标检测头,获得已训练的目标检测头输出的与待推理任务相关的推理结果。其中,电子设备针对性地将待推理语料的特征信息输入对应的已训练的目标检测头进行处理,获得已训练的目标检测头输出的与待推理任务相关的推理结果,提高了电子设备语言处理的效率以及灵活性,降低了电子设备语言处理的成本以及电子设备每个语言处理任务在线运行的负担。
本申请一实施例提供的语言处理方法,通过确定待推理任务,获取与待推理任务对应的待推理语料,从多个已训练的检测头中,确定与待推理任务对应的已训练的检测头,作为已训练的目标检测头,将待推理语料输入已训练的主干网络,获得已训练的主干网络输出的待推理语料的特征信息,将待推理语料的特征信息输入已训练的目标检测头,获得已训练的目标检测头输出的与待推理任务相关的推理结果,从而在提高语言处理效率的同时,降低了语言处理的成本。
请参阅图4,图4示出了本申请一实施例提供的语言处理方法的流程示意图。该方法以上述电子设备为执行主体,下面将针对图4所示的流程进行详细的阐述,所述语言处理方法具体可以包括以下步骤:
步骤S310:确定训练任务,并确定与所述训练任务对应的初始模型的检测头,其中,所述初始模型还包括主干网络,所述主干网络与所述训练任务对应的初始模型的检测头连接。
在一些实施方式中,电子设备可以根据语言处理要求确定训练任务,其中,语言处理要求可以是针对电子设备中NLP系统、搜索系统、智能语音助手系统、客服系统等对电子设备语言处理能力的制定的要求。
其中,电子设备确定训练任务,并确定与训练任务对应的初始模型的检测头。其中,检测头与对应的训练任务适配;初始模型的检测头根据训练任务构造,提高了电子设备语言处理模型的学习和语言处理能力,同时提高了电子设备语言处理模型的迁移能力。
在一些实施方式中,电子设备新增语言处理能力对于电子设备对应的语言处理模型可以是,根据新增的语言处理能力对应的任务构造检测头,利用对应该检测头的训练数据训练该检测头,获得已训练的检测头并将该已训练的检测头新增到语言处理模型,提高了电子设备语言处理的灵活性。
其中,初始模型还包括主干网络,主干网络与训练任务对应的初始模型的检测头连接。初始模型中的主干网络可以是大型预语言训练模型的局部,也可以是对大型预语言训练模型拆解后,通过MLM、NSP等预训练任务获得的可以提取句子通用的、泛化的语义信息的主干网络。
步骤S320:获取样本语料。
在本申请实施例中,采用样本语料作为训练初始模型的训练样本,电子设备可以获取样本语料用于训练初始模型的获得已训练的语言处理模型。
在一些实施方式中,样本语料可以是公开的内容,电子设备可以直接获取公开的样本语料。在另一些实施方式中,样本语料可以是加密的内容,电子设备获取样本语料可以是,对加密的样本语料解密,再获取解密后的样本语料中的内容。在再一些实施方式中,样本语料可以具有获取权限,电子设备获取样本语料可以是,电子设备具有获取样本语料的权限时,获取样本语料中的内容。
其中,电子设备获取样本语料可以是,电子设备的处理器获取预先存储的样本语料,也可以是电子设备通过无线通信技术从相关联的云端或电子设备获得样本语料,还可以是电子设备通过串口通信接口从相关联的电子设备获得样本语料,在此不作限定。
步骤S330:基于所述样本语料对所述初始模型进行训练,获得已训练的语言处理模型。
在一些实施方式中,电子设备可以基于样本语料训练初始模型中的主干网络,获得已训练的可以提取样本语料的特征信息的主干网络;电子设备基于样本语料训练初始模型中对应训练任务的检测头,获得对应训练任务的已训练的检测头。其中,样本语料的特征信息可以是样本语料通用的语义信息。
其中,基于样本语料训练初始模型中的检测头的过程中,已训练的主干网络的参数固定不变,仅改变检测头的参数,最后获得对应训练任务的结果收敛的已训练的检测头。
在一些实施方式中,主干网络选取大型预训练语言模型中的局部,以提高电子设备语言处理的准确性,如前N层变压器编码器层。将主干网络与检测头拼接,即使用主干网络的输出结果输入检测头,降低了电子设备利用语言模型进行语言处理的耗时,即提高了语言处理的效率。
应当理解,检测头的模型较小,在获得已训练的主干网络后利用样本语料对检测头训练的数据量也大大减少,降低了语言处理的成本,提高了已训练的语言处理模型的效率和灵活性。
步骤S340:确定待推理任务。
步骤S350:获取与所述待推理任务对应的待推理语料。
步骤S360:将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
其中,步骤S340-步骤S360的具体描述请参阅步骤S110-步骤S130,在此不再赘述。
本申请一实施例提供的语言处理方法,通过确定待推理任务,获取与待推理任务对应的待推理语料;将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。相较于图1所示的语言处理方法,本实施例根据训练任务和样本语料获得已训练的语言处理模型,并基于已训练的语言处理模型在确定语言推理的任务后,对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。
请参阅图5,图5示出了本申请一实施例提供的语言处理方法的流程示意图。该方法以上述电子设备未执行主体,下面将针对图5所示的流程进行详细的阐述,所述语言处理方法具体可以包括以下步骤:
步骤S410:确定训练任务,并确定与所述训练任务对应的初始模型的检测头,其中,所述初始模型还包括主干网络,所述主干网络与所述训练任务对应的初始模型的检测头连接。
步骤S420:获取样本语料。
步骤S430:将所述样本语料输入所述初始模型的主干网络,获得所述初始模型的主干网络输出的所述样本语料的特征信息。
在一些实施方式中,样本语料输入主干网络后,主干网络可以提取样本语料的语义信息,主干网络的输出结果可以是对样本语料进行通用的、泛化的语义信息提取的结果,可以理解的是,样本语料经过主干网络进行特征信息提取,减小了样本语料的存储空间,提高了获得已训练语言处理模型的效率。
步骤S440:将所述样本语料的特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
在一些实施方式中,样本语料中包括具有标签信息的多个语料片段。
在一些实施方式中,将样本语料的特征信息和标签信息输入与训练任务对应的初始模型的检测头,对初始模型进行训练,获得已训练的语言处理模型。
其中,标签信息可以是样本语料中的语义信息,可以是对样本语料进行文本分类的信息,还可以是对样本语料进行命名实体识别的信息,还可以是计算的样本语料的语义相似度的信息,在此不作限定。
在一些实施方式中,将样本语料的特征信息和标签信息输入与训练任务对应的初始模型的检测头,对初始模型进行训练,获得已训练的语言处理模型可以是,利用损失函数计算标签信息与利用检测头对输入的特征信息执行对应的训练任务而获得的推理结果之间的损失值;若该损失值大于预设损失值,则根据该损失值更新对应检测头中的参数,并返回执行将样本语料的特征信息和标签信息输入与训练任务对应的更新后的检测头,利用损失函数计算标签信息与利用更新后的检测头对输入的特征信息执行对应的训练任务而获得的推理结果之间的损失值,直至损失值小于或等于预设损失值,则获取根据该损失值对应的已训练的检测头,即确定对初始模型的训练完成。对初始模型的训练完成后,将已训练的主干网络与已训练检测头连接,获得已训练的语言处理模型。可以理解的是,利用损失函数对与训练任务对应的检测头迭代优化更新,进而训练初始模型获得已训练的语言处理模型,提高了语言处理模型的准确性,降低了训练语言处理模型的成本,同时提高了电子设备语言处理的效率。
应当理解,利用具有标签信息的样本语料对初始模型进行训练,获得已训练的语言处理模型,可以有监督的训练初始模型,以提高电子设备获得已训练的语言处理模型的效率,以及提高已训练的语言处理模型对语言处理的准确性。
步骤S450:确定待推理任务。
步骤S460:获取与所述待推理任务对应的待推理语料。
步骤S470:将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
本申请一实施例提供的语言处理方法,通过确定待推理任务,获取与待推理任务对应的待推理语料;将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。相较于图1所示的语言处理方法,本实施例根据训练任务和具有标签信息的样本语料,获得已训练的语言处理模型,有监督的获得已训练的语言处理模型,提高了训练获得语言处理模型的效率和准确性,并基于已训练的语言处理模型在确定语言推理的任务后,对待推理的语料进行处理,获取对应语言处理任务的推理结果,提高了语言处理效率的同时,降低了语言处理的成本。
请参阅图6,图6示出了本申请一实施例提供的语言处理方法的流程示意图。该方法以上述电子设备为执行主体,在本实施例中,初始模型还包括全连接层,全连接层分别与主干网络和训练任务对应的初始模型的检测头连接,下面将针对图6所示的流程进行详细的阐述,所述语言处理方法具体可以包括以下步骤:
步骤S510:确定训练任务,并确定与所述训练任务对应的初始模型的检测头,其中,所述初始模型还包括主干网络,所述主干网络与所述训练任务对应的初始模型的检测头连接。
步骤S520:获取样本语料。
步骤S530:将所述样本语料输入所述初始模型的主干网络,获得所述初始模型的主干网络输出的所述样本语料的特征信息。
步骤S540:将所述样本语料的特征信息输入所述全连接层,获得所述全连接层输出的目标特征信息,其中,所述目标特征信息由所述全连接层对所述样本语料的特征信息进行维度转化获得。
在一些实施方式中,主干网络与检测头之间的连接方式可以是嵌入式的模式,如将词汇转为向量的文本表示模型(word to vector,Word2VEC)、ELMO等对文本进行嵌入表示的方式。将样本语料输入主干网络获得初始模型的主干网络输出的样本语料的特征信息,其中,样本语料经过主干网络的处理后由主干网络的输出表征,然后将主干网络的输出结果输入到检测头中得到样本语料经过电子设备语言处理最终表征的结果。
在一些实施方式中,主干网络输出数据的维度与检测头要求的输入数据的维度不同,以将主干网络的输出结果输入到检测头中进行进一步的语言处理,初始模型还可以包括全连接层,全连接层分别与主干网络和与训练任务对应的初始模型的检测头连接。
其中,全连接层可以对样本语料的特征信息进行维度转化,以将主干网络的输出结果输入到检测头中。
在一些实施方式中,对初始模型进行训练获得已训练的语言处理模型可以是主干网络的参数固定不变,检测头中的参数更新,即主干网络对应输出数据的维度保持不变,检测头要求输入数据的维度更新。在一些实施方式中,可以在训练检测头的过程中伴随训练全连接层,以保证利用全连接层将主干网络的输出结果转换维度后,输入到检测头中。
步骤S550:将所述目标特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
在一些实施方式中,目标特征信息是数据维度满足检测头数据输入要求的信息。目标特征信息可以是将样本语料的特征信息输入全连接层,获得的全连接层输出的对样本语料的特征信息进行维度转化获得的目标特征信息。
示例性的,主干网络(PTM)对样本语料(query q)的表征结果vptm=fptm(q),即样本语料(query q)输入初始模型的主干网络,获得初始模型的主干网络输出的样本语料的特征信息(vptm)。进行维度转化的全连接层(W)对主干网络的输出vptm进行维度转换获得目标特征信息(vptm'),以满足检测头对的输入数据维度的要求。检测头以vptm'为输入,最终检测头输出对样本语料执行对应训练任务的预测结果emb,emb=fsbm(vptm')。
步骤S560:确定待推理任务。
步骤S570:获取与所述待推理任务对应的待推理语料。
步骤S580:将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
本申请一实施例提供的语言处理方法,相较于图5所示的语言处理方法,本实施例初始模型还包括全连接层,全连接层分别与主干网络和训练任务对应的初始模型的检测头连接,对样本语料的特征信息进行维度转化,获得目标特征信息输入检测头,通过微调对应训练任务的检测头的参数以及全连接层参数,获得已训练语言模型,提高了获得已训练的语言处理模型的效率,提高了已训练的语言处理模型的迁移性,降低了获得已训练的语言处理模型的成本,进而在提高语言处理效率的同时,降低了语言处理的成本。
请参阅图7,图7示出了本申请一实施例提供的语言处理装置的模块框图。该语言处理装置200以上述电子设备为执行主体,下面将针对图7所示的流程进行详细的阐述,所述语言处理装置200包括:任务确定模块,210、推理语料获取模块220以及推理结果获取模块230,其中:
任务确定模块210,用于确定待推理任务。
推理语料获取模块220,用于获取与所述待推理任务对应的待推理语料。
推理结果获取模块230,用于将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
进一步地,所述推理结果获取模块230包括:检测头获取模块、推理信息获取模块以及推理结果获取子模块,其中:
检测头获取模块,用于从所述多个已训练的检测头中,确定与所述待推理任务对应的已训练的检测头,作为已训练的目标检测头。
推理信息获取模块,用于将所述待推理语料输入所述已训练的主干网络,获得所述已训练的主干网络输出的所述待推理语料的特征信息。
推理结果获取子模块,用于将所述待推理语料的特征信息输入所述已训练的目标检测头,获得所述已训练的目标检测头输出的与所述待推理任务相关的推理结果。
进一步地,所述语言处理装置200还包括:训练任务确定模块、样本语料获取模块以及模型训练模块,其中:
训练任务确定模块,用于确定训练任务,并确定与所述训练任务对应的初始模型的检测头,其中,所述初始模型还包括主干网络,所述主干网络与所述训练任务对应的初始模型的检测头连接。
样本语料获取模块,用于获取样本语料。
模型训练模块,用于基于所述样本语料对所述初始模型进行训练,获得已训练的语言处理模型。
进一步地,所述模型训练模块还包括:样本信息获取模块以及模型训练子模块,其中:
样本信息获取模块,用于将所述样本语料输入所述初始模型的主干网络,获得所述初始模型的主干网络输出的所述样本语料的特征信息。
模型训练子模块,用于将所述样本语料的特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
进一步地,样本语料获取模块获取的样本语料中包括具有标签信息的多个语料片段,所述模型训练子模块还包括:第一模型训练子单元,其中:
第一模型训练子单元,用于将所述样本语料的特征信息和所述标签信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
进一步地,初始模型还包括全连接层,所述全连接层分别与所述主干网络和所述训练任务对应的初始模型的检测头连接,所述模型训练子模块还包括:信息维度转化单元和第二模型训练子单元,其中:
信息维度转化单元,用于将所述样本语料的特征信息输入所述全连接层,获得所述全连接层输出的目标特征信息,其中,所述目标特征信息由所述全连接层对所述样本语料的特征信息进行维度转化获得。
第二模型训练子单元,用于将所述目标特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图8,其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图9,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的语言处理方法、装置、电子设备以及存储介质,确定待推理任务,获取与待理任务对应的待推理语料,将待推理语料输入已训练的语言处理模型,获得已训练的语言处理模型输出的与待推理任务相关的推理结果,其中,已训练的语言处理模型包括已训练的主干网络以及分别与已训练的主干网络连接的多个已训练的检测头,多个已训练的检测头分别适配不同的推理任务。本申请通过确定语言处理的任务,利用包括通用的主干网络和与任务适配的检测头组成的已训练的语言处理模型对待推理的语料进行处理,获取对应语言处理任务的推理结果,在提高语言处理效率的同时,降低了语言处理的成本。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语言处理方法,其特征在于,所述方法包括:
确定待推理任务;
获取与所述待推理任务对应的待推理语料;
将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
2.根据权利要求1所述的方法,其特征在于,所述将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,包括:
从所述多个已训练的检测头中,确定与所述待推理任务对应的已训练的检测头,作为已训练的目标检测头;
将所述待推理语料输入所述已训练的主干网络,获得所述已训练的主干网络输出的所述待推理语料的特征信息;
将所述待推理语料的特征信息输入所述已训练的目标检测头,获得所述已训练的目标检测头输出的与所述待推理任务相关的推理结果。
3.根据权利要求1所述的方法,其特征在于,在所述确定待推理任务之前,还包括:
确定训练任务,并确定与所述训练任务对应的初始模型的检测头,其中,所述初始模型还包括主干网络,所述主干网络与所述训练任务对应的初始模型的检测头连接;
获取样本语料;
基于所述样本语料对所述初始模型进行训练,获得已训练的语言处理模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述样本语料对所述初始模型进行训练,获得已训练的语言处理模型,包括:
将所述样本语料输入所述初始模型的主干网络,获得所述初始模型的主干网络输出的所述样本语料的特征信息;
将所述样本语料的特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
5.根据权利要求4所述的方法,其特征在于,所述样本语料中包括具有标签信息的多个语料片段,所述将所述样本语料的特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型,包括:
将所述样本语料的特征信息和所述标签信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
6.根据权利要求4所述的方法,其特征在于,所述初始模型还包括全连接层,所述全连接层分别与所述主干网络和所述训练任务对应的初始模型的检测头连接,所述将所述样本语料的特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型,包括:
将所述样本语料的特征信息输入所述全连接层,获得所述全连接层输出的目标特征信息,其中,所述目标特征信息由所述全连接层对所述样本语料的特征信息进行维度转化获得;
将所述目标特征信息输入与所述训练任务对应的初始模型的检测头,对所述初始模型进行训练,获得所述已训练的语言处理模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待推理任务包括序列标注任务、分类任务、句子关系判断任务以及生成式任务中的至少一种。
8.一种语言处理装置,其特征在于,所述装置包括:
任务确定模块,用于确定待推理任务;
推理语料获取模块,用于获取与所述待推理任务对应的待推理语料;
推理结果获取模块,用于将所述待推理语料输入已训练的语言处理模型,获得所述已训练的语言处理模型输出的与所述待推理任务相关的推理结果,其中,所述已训练的语言处理模型包括已训练的主干网络以及分别与所述已训练的主干网络连接的多个已训练的检测头,所述多个已训练的检测头分别适配不同的推理任务。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592935.8A CN115017914A (zh) | 2022-05-27 | 2022-05-27 | 语言处理方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592935.8A CN115017914A (zh) | 2022-05-27 | 2022-05-27 | 语言处理方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017914A true CN115017914A (zh) | 2022-09-06 |
Family
ID=83070423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210592935.8A Pending CN115017914A (zh) | 2022-05-27 | 2022-05-27 | 语言处理方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017914A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860121A (zh) * | 2022-12-02 | 2023-03-28 | 北京百度网讯科技有限公司 | 文本推理方法、装置、设备以及存储介质 |
-
2022
- 2022-05-27 CN CN202210592935.8A patent/CN115017914A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860121A (zh) * | 2022-12-02 | 2023-03-28 | 北京百度网讯科技有限公司 | 文本推理方法、装置、设备以及存储介质 |
CN115860121B (zh) * | 2022-12-02 | 2024-04-26 | 北京百度网讯科技有限公司 | 文本推理方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777013B (zh) | 对话管理方法和装置 | |
CN107330120B (zh) | 询问应答方法、询问应答装置及计算机可读存储介质 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
WO2016197767A2 (zh) | 一种表情输入方法、装置、终端和计算机可读存储介质 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN111930940A (zh) | 一种文本情感分类方法、装置、电子设备及存储介质 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN111367490A (zh) | 语音播放方法、装置及电子设备 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
CN110795913A (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN110955818A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN113435182A (zh) | 自然语言处理中分类标注的冲突检测方法、装置和设备 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN115186080A (zh) | 一种智能问答数据处理方法、系统、计算机设备及介质 | |
CN115017914A (zh) | 语言处理方法、装置、电子设备以及存储介质 | |
CN114547244A (zh) | 用于确定信息的方法和装置 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN115378890B (zh) | 信息输入方法、装置、存储介质及计算机设备 | |
CN112818096A (zh) | 对话生成方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |