CN116976283A - 语言处理方法、训练方法、装置、设备、介质及程序产品 - Google Patents
语言处理方法、训练方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116976283A CN116976283A CN202310406855.3A CN202310406855A CN116976283A CN 116976283 A CN116976283 A CN 116976283A CN 202310406855 A CN202310406855 A CN 202310406855A CN 116976283 A CN116976283 A CN 116976283A
- Authority
- CN
- China
- Prior art keywords
- language processing
- semantic
- text
- network
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 416
- 230000000873 masking effect Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 13
- 238000003058 natural language processing Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语言处理方法、训练方法、装置、设备、介质及程序产品,其中,接收输入的待处理文本,待处理文本包括需要进行语言处理的文本;获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络;通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征;通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本;语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征,能够提升语言处理模型的语言处理能力。
Description
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种语言处理方法、训练方法、装置、设备、介质及程序产品。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它以语言为对象,利用计算机技术来分析、理解和处理自然语言,应用于机器翻译、自动摘要、观点提取、文本分类、问题回答、文本语义对比等方面。
自然语言处理任务的实现前提是使得计算机能够理解文本的语义,即需要对文本的语义进行表征,然而在目前的相关技术中,通常利用预训练的语言模型来对文本进行语义的表征,然而,这类语言模型的表征存在各向异性的问题,即表征位于表示空间的一个狭小子集中,不太具有区分性,捕获不同文本的语义差异的能力较差,进而导致自然语言处理的效果较差。
发明内容
本申请实施例提供一种语言处理方法、模型训练方法、语言处理装置、电子设备、计算机可读存储介质以及计算机程序产品,可以提高语言处理模型的语言处理能力。
第一方面,本申请提供的语言处理方法,包括:
接收输入的待处理文本,待处理文本包括需要进行语言处理的文本;
获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络;
通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征;
通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本;
其中,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
第二方面,本申请提供的语言处理装置,包括:
文本获取模块,用于接收输入的待处理文本,待处理文本包括需要进行语言处理的文本;
模型获取模块,用于获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络;
语义编码模块,用于通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征;
语言处理模块,用于通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本;
其中,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
在一可选的实施例中,语言处理装置还包括模型训练模块,用于获取掩码语言模型,掩码语言模型包括语义特征编码网络和掩码预测网络;获取对应掩码预测任务的n个原始文本,并对n个原始文本进行掩码处理,得到n个第一类样本文本;通过语义特征编码网络分别对n个原始文本和n个第一类样本文本进行语义编码,得到n个原始文本的n个第一样本语义编码特征、n个第一类样本文本的n个第二样本语义编码特征;通过掩码预测网络对n个第二样本语义编码特征进行掩码预测,得到n个预测文本;根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取对比学习任务的对比损失;根据n个预测文本和n个原始文本,获取掩码预测任务的预测损失;根据对比损失和预测损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
在一可选的实施例中,模型训练模块用于确定目标掩码比例,并根据目标掩码比例确定n个原始文本的待掩码字符;将n个原始文本中的待掩码字符替换为预设掩码字符,得到n个第一类样本文本。
在一可选的实施例中,模型训练模块用于选取n个第一类样本文本中的任一第一类样本文本,并从选取的第一类样本文本所对应的原始文本中选取目标待掩码字符;根据选取的第一类样本文本所对应的第一样本语义编码特征,确定目标待掩码字符的字符编码特征;根据选取的第一类样本文本所对应的第二样本语义编码特征,确定目标待掩码字符对应的预设掩码字符的正例字符编码特征;从其它第一类样本文本及其它第一类样本文本对应的原始文本中选取负例字符,并根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定负例字符的负例字符编码特征;获取字符编码特征与正例字符编码特征之间的第一相似度,以及字符编码特征与负例字符编码特征之间的第二相似度;根据第一相似度和第二相似度获取对比损失。
在一可选的实施例中,模型训练模块用于获取对应对比损失的加权权重,并根据加权权重对对比损失进行加权计算,得到加权损失;融合加权损失和预测损失,得到融合损失;根据融合损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
在一可选的实施例中,模型训练模块还用于获取对应不同语言处理类型的第二类样本文本,以及对应第二类样本文本的第一处理结果文本标签;构建对应每一语言处理类型的语言处理网络;针对每一语言处理类型,将对应的第二类样本文本输入语义特征编码网络进行语义编码,得到第三样本语义编码特征,并将第三样本语义编码特征输入对应的语言处理网络进行语言处理,得到第一样本处理结果文本,以及根据第一样本处理结果文本和对应的第一处理结果文本标签,获取每一语言处理类型的语言处理损失;根据每一语言处理类型的语言处理损失,对每一语言处理类型的语言处理网络的网络参数进行更新,直至满足第二预设更新停止条件。
在一可选的实施例中,模型获取模块用于确定对应待处理文本的目标语言处理类型;获取目标语言处理类型对应的语言处理网络,以及获取语义特征编码网络;将语义特征编码网络、目标语言处理类型对应的语言处理网络,组合为语言处理模型。
第三方面,本申请提供的模型训练方法,包括:
获取预训练的语义特征编码网络,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征;
获取对应语言处理任务的o个第三类样本文本,以及对应o个第三类样本文本的o个第二处理结果文本标签;
构建对应语言处理任务的语言处理网络;
将o个第三类样本文本输入语义特征编码网络进行语义编码,得到o个第四样本语义编码特征;
将o个第四样本语义编码特征输入语言处理网络进行语言处理,得到o个第二样本处理结果文本;
根据o个第二样本处理结果文本和o个第二处理结果文本标签,获取语言处理损失;
根据语言处理损失,对语言处理网络的网络参数进行更新,直至满足第三预设更新停止条件;
将满足第三预设更新停止条件的语言处理网络和语义特征编码网络,组合为对应语言处理任务的语言处理模型。
第四方面,本申请提供的电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,实现本申请所提供的语言处理方法中的步骤,或者实现本申请所提供的模型训练方法中的步骤。
第五方面,本申请提供的计算机可读存储介质,存储有多条指令,该指令适于处理器进行加载,实现本申请所提供的语言处理方法中的步骤,或者实现本申请所提供的模型训练方法中的步骤。
第六方面,本申请提供的计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请所提供的语言处理方法中的步骤,或者实现本申请所提供的模型训练方法中的步骤。
本申请中,首先获取到需要进行语言处理的待处理文本,此外还获取语言处理模型,该语言处理模型包括语义特征编码网络和语言处理网络,其中,该语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。然后,通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征,并进一步通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。相较于相关技术,语义特征编码网络在训练阶段采用一样本文本中被掩码的字符在掩码前后的语义编码特征作为正例,能够拉近被掩码字符在掩码前后的语义表征,同时采用另一样本文本中字符的语义编码特征作为负例,使得语义特征编码网络学习的语义表征更具区分性,提升语义特征编码网络的语义表征能力,进而提升由语义特征编码网络结合下游语言处理任务的语言处理网络得到的语言处理模型的语言处理能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的语言处理系统的场景示意图;
图1b是本申请实施例提供的语言处理方法的一流程示意图;
图1c是本申请实施例中语言处理模型的一结构示意图;
图1d是本申请实施例中一第一类样本文本的生成及处理过程的示意图;
图1e是本申请实施例中选取正例字符编码特征和负例字符编码特征的示意图;
图1f是本申请实施例中选取语言处理网络组成语言处理模型的示意图;
图2是本申请实施例提供的模型训练方法的流程示意图;
图3是本申请实施例提供的语言处理装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
需要说明的是,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其他具体实施例。
本申请以下描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
本申请以下描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(Machine Learning,ML)技术,其中,深度学习(Deep Learning,DL)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在机器视觉、自然语言处理等领域。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音数据的解释有很大的帮助。利用深度学习技术,以及对应的训练集,能够训练得到实现不同功能的网络模型。比如,以自然语言处理为例,基于一训练集能够训练得到用于问题问答的问题问答模型,基于另一训练集能够训练得到用于文本观点提取的观点提取模型等。
本申请涉及人工智能技术的自然语言处理技术领域,提供一种语言处理方法、语言处理装置、电子设备、计算机可读存储介质以及计算机程序产品。其中,语言处理方法可由语言处理装置执行,或者由集成了该语言处理装置的电子设备执行。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1a,本申请还提供一语言处理系统,如图1a所示,该语言处理系统包括电子设备100,电子设备100中集成有本申请提供的语言处理装置。比如,电子设备100可以接收输入的待处理文本,待处理文本包括需要进行语言处理的文本,以及获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络,其中语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征;之后,通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征,以及通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。
其中,电子设备100可以是任何配置有处理器而具备处理能力的设备,比如智能手机、平板电脑、掌上电脑、笔记本电脑、智能音箱等具备处理器的移动式电子设备,或者台式电脑、电视、服务器、工业设备等具备处理器的固定式电子设备等。
另外,如图1a所示,该语言处理系统还可以包括存储器200,用于存储语言处理过程中的原始数据、中间数据以及结果数据,比如,电子设备100将获取到的需要进行语言处理的待处理文本(原始数据),对待处理文本进行语义编码得到的语义编码特征(中间数据),以及对语义编码特征进行语言处理得到的处理结果文本(结果数据)存入存储器200中。
需要说明的是,图1a所示的语言处理系统的场景示意图仅仅是一个示例,本申请实施例描述的语言处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着语言处理系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
请参照图1b,图1b是本申请实施例提供的语言处理方法的流程示意图,如图1b所示,本申请提供的语言处理方法的流程如下:
在110中,接收输入的待处理文本,待处理文本包括需要进行语言处理的文本。
本实施例中,对于待处理文本的语言种类不做具体限制,其可以为任意语言的需要进行语言处理的文本,具体取决于实际的语言处理需求,示例性的,输入的待处理文本可以是需要进行问题问答的英文文本,比如“What is one plus one?”;输入的待处理文本可以是需要进行问题问答的中文文本,比如“一加一等于几?”等等。
此外,本申请实施例对于待处理文本的输入方式不做具体限制,可由本领域技术人员根据实际需要进行配置。比如,可以提供一自然语言处理交互界面,该交互界面至少包括文本输入接口,进而通过该文本输入接口接收输入的待处理文本。
在120中,获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络。
需要说明的是,本实施例中预先训练有语言处理模型,该语言处理模型被配置为以期望进行语言处理的文本为输入,以对应语言处理类型的处理结果文本为输出。比如,假设语言处理模型被配置为执行问题问答的自然语言处理任务,则输入该语言处理模型的文本需要为问题文本,该语言处理模型输出文本则为针对问题文本的应答文本;又比如,假设语言处理模型被配置为执行自动摘要的自然语言处理任务,则输入该语言处理模型的文本为需要进行摘要的篇章、段落等文本,该语言处理模型的输出文本为针对输入文本的摘要文本。
本实施例中,在获取到需要进行语言处理的待处理文本之后,进一步获取到预训练的语言处理模型。请参照图1c,该语言处理模型由两部分组成,分别为语义特征编码网络和语言处理网络。
其中,语义特征编码网络是语言处理模型的主干,用于将输入的文本向量化后映射至隐藏空间,实现对输入文本的语义表征,得到对应的语义编码特征。需要说明的是,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
语言处理网络连接语义特征编码网络,用于根据训练的语言处理任务,将语义编码特征映射至对应的处理结果文本。
需要说明的是,以上语义特征编码网络和语言处理网络可以分别训练,训练完成后再组成语言处理模型。
在一实施例中,语义特征编码网络按照如下方式预先训练:
获取掩码语言模型,掩码语言模型包括语义特征编码网络和掩码预测网络;
获取对应掩码预测任务的n个原始文本,并对n个原始文本进行掩码处理,得到n个第一类样本文本;
通过语义特征编码网络分别对n个原始文本和n个第一类样本文本进行语义编码,得到n个原始文本的n个第一样本语义编码特征、n个第一类样本文本的n个第二样本语义编码特征;
通过掩码预测网络对n个第二样本语义编码特征进行掩码预测,得到n个预测文本;
根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取对比学习任务的对比损失;
根据n个预测文本和n个原始文本,获取掩码预测任务的预测损失;
根据对比损失和预测损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
需要说明的是,预训练语言模型目前可以分为两大类,一类是掩码语言模型(也称自编码语言模型等),另一类是自回归语言模型。其中,对于掩码语言模型,通过在输入文本中随机对一些字或词进行掩码,然后根据上下文来预测这些被掩码的字/词,这类模型可以同时利用上下文信息,比较适合自然语言理解任务,如文本分类、文本匹配等;对于自回归语言模型,其根据上文预测下一个可能的字/词,或者根据下文预测前面的字/词,这类模型的缺点是只能利用上文或者下文的信息,而不能同时利用上文和下文的信息,比较适合自然语言生成任务,如机器翻译,文本摘要等。本实施例提供的训练方式针对的即是其中的掩码语言模型,通过对掩码语言模型的语义特征编码网络的训练进行优化,提高其语义表征能力,进而将该语义特征编码网络与实际语言处理任务的语言处理网络相结合,得到能够执行实际语言处理任务的语言处理模型。
本实施例中,首先获取到掩码语言模型,该掩码语言模型包括两部分网络组成,一部分为用于语义表征的语义特征编码网络,另一部分为用于掩码预测的掩码预测网络。其中,获取的掩码语言模型可以是任一掩码语言模型,本实施例对此不作具体限制,比如,获取的掩码语言模型可以是原始的BERT模型,也可以BERT的改进版本,如RoBERTa、ALBERT、MacBERT等。
示例性的,以BERT模型为例,BERT模型包括语义特征编码网络,以及两个任务分支,分别是掩码预测网络和下文预测网络,相应的,本实施例中舍弃下文预测网络,仅获取到语义特征编码网络和掩码预测网络。
其中,语义特征编码网络包括嵌入层和编码层。编码层包含12个Transformer块,每一Transformer块由一自注意力层和一前馈神经网络层组成。自注意力层计算文本中两两字符之间的注意力权重,前馈神经网络层包括两个全连接子层,每个Transformer块之间都有残差连接和层标准化操作。嵌入层用于将输入的文本转换为向量表示,编码层用于将向量映射至隐藏空间,实现对输入文本的语义表征,得到对应的语义编码特征。
此外,本实施例还获取对应掩码预测任务的n个原始文本,该原始文本可以是任意具有一定语义的未被掩码的文本,比如,可以是描述某个物品的描述文本、诗词中的语句文本、描述特定需求的需求文本、描述某个状态的描述文本等等。示例性的,如“红色的消防栓”、“挺拔的大树”等等。其中,n为正整数,可以本领域技术人员根据实际需要确定n的取值。
需要说明的是,掩码处理任务在于掩盖掉原始文本中的一些字符,然后通过上下文预测被掩盖的字符,使得掩码语言模型学习对自然语言的理解能力。
本实施例中,对于获取到的n个原始文本,进一步对其进行掩码处理,将掩码处理后的原始文本作为用于训练掩码语言模型的样本,记为第一类样本文本,相应得到n个第一类样本文本。
其中,本实施例对于掩码处理的具体实施不做限制,以遮盖原始文本中部分字符为约束,可由本领域技术人员根据实际需要进行。比如,可以随机选取字符来随机替换掉原始文本中的一些字符,得到第一类样本文本。
在一实施例中,对n个原始文本进行掩码处理,得到n个第一类样本文本,包括:
确定目标掩码比例,并根据目标掩码比例确定n个原始文本的待掩码字符;
将n个原始文本中的待掩码字符替换为预设掩码字符,得到n个第一类样本文本。
其中,首先确定对原始文本掩码的目标掩码比例,该目标掩码比例可以缺省配置为静态值,也可以动态确定其取值,比如,本实施例在15%-20%区间内随机选取一个值作为目标掩码比例。
在确定目标掩码比例之后,对于n个原始文本中的每一原始文本,按照目标掩码比例从其中选取对应数量的字符作为待掩码字符,此处对于待掩码字符的选取方式不作具体限制,比如,可以是连续选取,也可以是间隔指定数量的字符选取,还可以是随机选取等。
如上,在确定目标掩码比例,并根据目标掩码比例确定原始文本的待掩码字符之后,进一步将原始文本中的待掩码字符替换为预设掩码字符,完成对原始文本的掩码处理,得到对应的第一类样本文本。其中,预设掩码字符可以是个单个字符,或者两个以上字符组成的字符串,具体可由本领域技术人员根据实际需要进行配置。
以下以一原始文本“挺拔的大树”为例进行说明。
假设预设掩码字符被配置为字符串“[MASK]”,确定的目标掩码比例为20%,其中“树”被确定为待掩码字符,相应将“挺拔的大树”中的“树”替换为“[MASK]”,得到对应的第一类样本文本“挺拔的大[MASK]”。
至此,已获取到由语义特征编码网络和掩码预测网络组成的掩码语言模型,以及对应掩码预测任务的原始文本,由原始文本进行掩码处理得到的第一类样本文本,以下将利用原始文本及其对应的第一类样本文本完成对掩码语言模型的训练。
其中,将n个原始文本分别输入语义特征编码网络,通过语义特征编码网络进行语义编码,得到n个原始文本的语义编码特征,记为第一样本语义编码特征。此外,对于一原始文本,将其对应的第一类样本文本输入语义特征编码网络,通过语义特征编码网络对第一类样本文本进行语义编码,得到第一类样本文本的语义编码特征,记为第二样本语义编码特征,相应的,得到n个第二样本语义编码特征。
进一步的,将n个第二样本语义编码特征分别输入掩码预测网络,通过掩码预测网络进行掩码预测,得到n个第二样本语义编码特征的预测文本。
请参照图1d,以下以对一第一类样本文本的生成及处理过程为例进行说明:
示例性的,首先获取到一原始文本,记为[w1,w2,……,wm],wj表示原始文本中的字符,j∈[1,m],m表示原始文本的字符长度。
在将原始文本输入语义特征编码网络前,首先在原始文本首尾分别添加特殊字符“[CLS]”和“[SEP]”,变为[CLS,w1,w2,……,wm,SEP],然后,采用分词工具对添加特殊字符后的原始文本进行分词,并将其映射为词表中对应的数字标识,从而将原始文本转换为对应的数字标识序列[t0,t1,t2,……,tm,tm+1]。
然后,对数字标识序列进行掩码处理,即得到第一类样本文本,可以理解的是,此处进行掩码处理具体使用预设掩码字符的数字标识替换数字标识序列中对应位置的数字标识,第一类样本文本的表示形式同样为数字标识序列。
然后,将掩码处理后的数字标识序列输入到语义特征编码网络进行语义编码,得到第二类样本文本的语义编码特征,再将该第二类样本文本的语义编码特征输入语言处理网络进行语言处理,得到预测文本[w1’,w2’,……,wm’]。
如上,本申请中采用掩码预测任务和对比学习任务对掩码语言模型进行训练。其中,对于对比学习任务,根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取对比学习任务的对比损失。此外,对于掩码预测任务,根据n个预测文本和n个原始文本中相对应的预测文本和原始文本之间的差异,获取掩码预测任务的预测损失。需要目的是,对于预测损失具体采用何种损失,可由本领域技术人员根据实际需要进行选取,比如,本实施例采用交叉熵损失。
相应的,在获取到掩码预测任务的预测损失,以及对比学习任务的对比损失之后,即根据该预测损失和对比损失,采用梯度下降方式对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。其中,梯度下降方式包括但不限于随机梯度下降方式(Stochastic Gradient Descent)和小批量梯度下降方式(MiniBatch Gradient Descent)等。
需要说明的是,第一预设更新停止条件可由本领域技术人员根据实际需要进行设置,此处不作具体限制,比如,可以设置第一预设更新停止条件为对语义特征编码网络和掩码预测网络的网络参数的更新次数达到预设次数,还可以设置第一预设更新停止条件为语义特征编码网络和掩码预测网络收敛等。
在一实施例中,根据对比损失和预测损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件,包括:
获取对应对比损失的加权权重,并根据加权权重对对比损失进行加权计算,得到加权损失;
融合加权损失和预测损失,得到融合损失;
根据融合损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
其中,对比损失的加权权重可以缺省配置为静态值,具体可由本领域技术人员根据实际需要进行取值,比如,本实施例中,将对比损失的加权权重配置为0.5。
以上根据加权权重对对比损失进行加权计算,得到加权损失,融合加权损失和预测损失,得到融合损失,可以表示为:
L=LMLM+λLCL;
其中,L表示融合损失,LMLM表示预测损失,λ表示对比损失的加权权重,LCL表示对比损失。
在一实施例中,根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取对比学习任务的对比损失,包括:
选取n个第一类样本文本中的任一第一类样本文本,并从选取的第一类样本文本所对应的原始文本中选取目标待掩码字符;
根据选取的第一类样本文本所对应的第一样本语义编码特征,确定目标待掩码字符的字符编码特征;
根据选取的第一类样本文本所对应的第二样本语义编码特征,确定目标待掩码字符对应的预设掩码字符的正例字符编码特征;
从其它第一类样本文本及其它第一类样本文本对应的原始文本中选取负例字符,并根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定负例字符的负例字符编码特征;
获取字符编码特征与正例字符编码特征之间的第一相似度,以及字符编码特征与负例字符编码特征之间的第二相似度;
根据第一相似度和第二相似度获取对比损失。
本实施例中,选取每一第一类样本文本,从其对应的原始文本中的待掩码字符中随机选取一字符作为目标,记为目标待掩码字符;根据选取的第一类样本文本所对应的第一样本语义编码特征(即第一类样本文本所对应的原始文本的语义编码特征),确定目标待掩码字符的语义编码特征,记为字符编码特征;根据选取的第一类样本文本所对应的第二样本语义编码特征(也即第一类样本文本自身的语义编码特征),确定目标待掩码字符所对应的预设掩码字符的语义编码特征,记为正例字符编码特征。
此外,还从其它第一类样本文本及其对应的原始文本中选取负例字符,此处对于负例字符的选取方式不作具体现在,可由本领域技术人员根据实际需要进行配置。比如,本实施例中,对于一第一类样本文本,将该第一类样本文本之外的其它第一类样本文本,及其它第一类样本文本对应的原始文本中的全部字符选取为负例字符。
示例性的,请参照图1e,对于一添加了特殊字符的原始文本[CLS,w1,w2,……,wm,SEP],其中字符w2被选取为目标待掩码字符,将字符w2替换为预设掩码字符[MASK],得到第一类样本文本[CLS,w1,[MASK],……,wm,SEP],相应的,对于字符w2的字符编码特征,第一类样本文本中字符[MASK]的语义编码特征被选取为负例字符编码特征,其它第一类样本文本以及其它第一类样本文本的原始文本中的字符被选取为负例字符,这些负例字符的语义编码特征相应被选取为负例字符编码特征。
至此,即可根据确定的字符编码特征、正例字符编码特征以及负例字符编码特征,按照如下损失函数获取对比损失:
其中,Lcl表示对比损失,n表示第一类样本文本的数量,xi表示第i个第一类样本文本的字符编码特征,xi′表示第i个第一类样本文本的字符编码特征所对应的正例字符编码特征,N表示选取出的负例字符的字符数,xk表示第k个负例字符的负例字符编码特征,t表示学习因子,sim()表示相似度运算,利用sim(xi,xi′)计算得到第一相似度,利用sim(xi,xk)计算得到第二相似度。需要说明的,学习因子t可由本领域技术人员根据实际需要确定其取值,比如本实施例中配置学习因子t为2。
在一实施例中,根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定负例字符的负例字符编码特征,包括:
根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定负例字符自身的语义编码特征;
根据负例字符来源的其它第一类样本文本或原始文本,与第一类样本文本间的语义相似度,确定负例字符的加权权重;
根据加权权重对负例字符自身的语义编码特征进行加权运算,得到负例字符的负例字符编码特征。
本实施例中,为进一步提升语义特征编码网络的语义表征能力,在以上实施例的基础上增加了不同负样本的重要性权重。
其中,根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定出负例字符自身的语义编码特征。如上,对于一第一类样本文本,其负例字符来源于该第一类样本文本之外的其它第一类样本文本,以及该其它第一类样本文本所对应的原始文本,相应的,本实施例进一步根据负例字符来源的其它第一类样本文本或原始文本,与第一类样本文本间的语义相似度,以及语义相似度与加权权重之间的预设对应关系,确定负例字符的加权权重。对于该预设对应关系,以语义相似度与加权权重正相关为约束,可由本领域技术人员根据实际需要进行设置。
如上,在确定出负例字符自身的语义编码特征,以及其加权权重之后,即根据加权权重对负例字符自身的语义编码特征进行加权运算,得到负例字符的负例字符编码特征。
在130中,通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征。
本实施例中,在接收到需要进行语言处理的待处理文本以及语言处理模型之后,即将待处理文本输入语义特征编码网络进行语义编码,得到待处理文本的语义编码特征,该语义编码特征以计算机可以理解的形式表征了待处理文本的语义。
需要说明的是,如同训练过程中进行的分词操作,同样需要对待处理文本进行分词操作,得到其对应的数字标识序列输入语义特征编码网络,而不是直接将原始的待处理文本输入语义特征编码网络。
在140中,通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。
本实施例中,在完成对待处理文本的语义编码,相应得到待处理文本的语义编码特征之后,进一步将编码得到的语义编码特征输入到语言处理网络,通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。
可以理解的是,语言处理网络具体进行何种类型的语言处理,取决于训练阶段采用的样本文本及对应的标签。
在一实施例中,可以按照如下方式训练语言处理网络:
获取对应不同语言处理类型的第二类样本文本,以及对应第二类样本文本的第一处理结果文本标签;
构建对应每一语言处理类型的语言处理网络;
针对每一语言处理类型,将对应的第二类样本文本输入语义特征编码网络进行语义编码,得到第三样本语义编码特征,并将第三样本语义编码特征输入对应的语言处理网络进行语言处理,得到第一样本处理结果文本,以及根据第一样本处理结果文本和对应的第一处理结果文本标签,获取每一语言处理类型的语言处理损失;
根据每一语言处理类型的语言处理损失,对每一语言处理类型的语言处理网络的网络参数进行更新,直至满足第二预设更新停止条件。
本实施例中,预先训练至少两种不同语言处理类型的语言处理网络。
其中,首先获取对应不同语言处理类型的样本文本,记为第二类样本文本,对于一语言处理类型的第二类样本文本,获取对其执行相应语言处理所期望得到的处理结果文本标签,记为第一处理结果文本标签。需要说明的是,对于获取的不同语言处理类型的第二类样本文本的数量,可以相同,也可以不同。
对于每一语言处理类型,构建适于处理该语言处理类型任务的语言处理网络,具体可由本领域技术人员根据实际语言处理类型,选择合适的网络结构来构建语言处理网络。
本实施例中,利用已训练的语义特征编码网络来训练语言处理网络,其中语义特征编码网络的训练过程可参照以上实施例中的相关描述,此处不再赘述。
针对每一语言处理类型,将该语言处理类型的第二类样本文本输入语义特征编码网络进行语义编码,并将编码得到的语义编码特征记为第三样本语义编码特征;然后将第三样本语义编码特征输入该语言处理类型的语言处理网络进行语言处理,将得到处理结果文本记为第一样本处理结果文本;然后,根据第一样本处理结果文本和对应的第一处理结果文本标签,获取到该语言处理类型的语言处理损失。此处对于采用何种损失作为语言处理损失不做具体限制,可由本领域技术人员根据实际需要进行选取,比如,可以选取交叉熵损失作为语言处理损失。最后,根据语言处理损失,采用梯度下降方式对语言处理网络的网络参数进行更新,直至满足第二预设更新停止条件。
其中,第二预设更新停止条件可由本领域技术人员根据实际需要进行设置,此处不作具体限制,比如,可以设置第二预设更新停止条件为对语言处理网络的网络参数的更新次数达到预设次数,还可以设置第二预设更新停止条件为语言处理网络收敛。
按照以上训练方式,可以分别训练得到不同语言处理类型的语言处理网络,具体请参照以上相关说明,此处不再赘述。
在一实施例中,获取语言处理模型,包括:
确定对应待处理文本的目标语言处理类型;
获取目标语言处理类型对应的语言处理网络,以及获取特征编码网络;
将特征编码网络、目标语言处理类型对应的语言处理网络,组合为语言处理模型。
本实施例中,预先训练了对应不同语言处理类型的预言处理网络,相应的,在获取语言处理模型时,首先确定对应待处理文本的目标语言处理类型,该目标语言处理模型用于描述待处理文本期望执行何种语言处理类型的语言处理任务。
在确定了待处理文本的目标语言处理类型之后,即获取该目标语言处理类型所对应的语言处理网络,以及获取到预训练的特征编码网络,相应将获取到的特征编码网络和目标语言处理类型对应的语言处理网络,组合为本次语言处理任务的语言处理模型。
示例性的,请参照图1f,假设预先训练了四种不同语言处理类型的语言处理网络,分别为语言处理网络A、语言处理网络B、语言处理网络C以及语言处理网络D,假设确定的目标语言处理类型为语言处理类型A,则将语言处理网络A和预训练的语义特征编码组合为本次语言处理任务的语言处理模型。
由上可知,本申请实施例首先获取到需要进行语言处理的待处理文本,此外还获取语言处理模型,该语言处理模型包括语义特征编码网络和语言处理网络,其中,该语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。然后,通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征,并进一步通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。相较于相关技术,语义特征编码网络在训练阶段采用一样本文本中被掩码的字符在掩码前后的语义编码特征作为正例,能够拉近被掩码字符在掩码前后的语义表征,同时采用另一样本文本中字符的语义编码特征作为负例,使得语义特征编码网络学习的语义表征更具区分性,提升语义特征编码网络的语义表征能力,进而提升由语义特征编码网络结合下游语言处理任务的语言处理网络得到的语言处理模型的语言处理能力。
请参照图2,本申请还提供一种模型训练方法,该模型训练方法可以包括:
210,获取预训练的语义特征编码网络,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
其中,对于语义特征编码网络如何训练,具体可参照以上实施例中的相关描述,此处不再赘述。
220,获取对应语言处理任务的o个第三类样本文本,以及对应o个第三类样本文本的o个第二处理结果文本标签。
本实施例中,对于一特定语言处理类型的语言处理任务,还获取对应该语言处理任务的o个样本文本,记为第三类样本文本,以及对o个第三类样本文本进行语言处理所期望得到处理结果文本,记为第二处理结果文本标签,其中,o为正整数,具体可由本领域技术人员根据实际需要取值。
比如,以电商搜索场景为例,语言处理任务可以是搜索相关性任务,商品分类任务以及商品命名实体识别任务等,其中,搜索相关性任务判断输入的查询文本与系统召回的内容之间的相关性;商品分类任务根据商品的文本描述(标题,详细信息等),预测商品的类目;而商品命名实体识别任务则是预测商品文本中包含的实体及其实体类型。
230,构建对应语言处理任务的语言处理网络。
本实施例中,还构建适于处理以上语言处理任务的语言处理网络,具体可由本领域技术人员根据实际语言处理任务,选择合适的网络结构来构建语言处理网络。
240,将o个第三类样本文本输入语义特征编码网络进行语义编码,得到o个第四样本语义编码特征。
如上,在获取到预训练的语义特征编码网络以及完成语言处理网络的构建之后,将o个第三类样本文本分别输入语义特征编码网络,通过语义特征编码网络对o个第三类样本文本进行语义编码,将编码得到语义编码特征记为第四样本语义编码特征。
250,将o个第四样本语义编码特征输入语言处理网络进行语言处理,得到o个第二样本处理结果文本。
其中,将o个第四样本语义编码特征分别输入语言处理网络,通过语言处理网络对第四样本语义编码特征进行语言处理,将o个第四样本语义编码特征映射至处理结果文本,记为第二样本处理结果文本。
260,根据o个第二样本处理结果文本和o个第二处理结果文本标签,获取语言处理损失。
其中,对于采用何种损失作为语言处理损失不做具体限制,可由本领域技术人员根据实际需要进行选取,比如,可以选取交叉熵损失作为语言处理损失。
270,根据语言处理损失,对语言处理网络的网络参数进行更新,直至满足第三预设更新停止条件。
其中,根据语言处理损失,采用梯度下降方式对语言处理网络的网络参数进行更新,直至满足第三预设更新停止条件。
需要说明的是,第三预设更新停止条件可由本领域技术人员根据实际需要进行设置,此处不作具体限制,比如,可以设置第三预设更新停止条件为对语言处理网络的网络参数的更新次数达到预设次数,还可以设置第三预设更新停止条件为语言处理网络收敛。
280,将语义特征编码网络和满足第三预设更新停止条件的语言处理网络,组合为对应语言处理任务的语言处理模型。
为验证本实施例所提供模型训练方法所训练得到的语言处理模型的语言处理能力,进行如下对比实验:
以电商搜索场景为例,采用本实施例所提供模型训练方法分别训练有适于搜索相关性任务,商品分类任务以及商品命名实体识别任务的语言处理模型,与基于原始BERT模型和RoBERTa模型的语言处理模型进行对比,得到对比结果表如下:
表1
如上表1所示,相关性任务和商品分类任务采用的指标为ACC指标,即准确率,商品命名实体识别任务采用的指标为F1-score,F1-score为综合指标,结合了查全率和查准率,表示为其中P表示查全率,R表示查准率。可以看出,相较于相关技术,本实施例提供的模型训练方法所训练的不同语言处理任务的相关指标均有明显提高。/>
为便于更好的实施本申请实施例提供的语言处理方法,本申请实施例还提供一种基于上述语言处理方法的语言处理装置。其中名词的含义与上述语言处理方法中相同,具体实现细节请参考以上方法实施例中的说明。
请参照图3,图3为本申请实施例提供的语言处理装置的结构示意图,该语言处理装置可以包括文本获取模块310、模型获取模块320、语义编码模块330以及语言处理模块340,其中,
文本获取模块310,用于接收输入的待处理文本,待处理文本包括需要进行语言处理的文本;
模型获取模块320,用于获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络;
语义编码模块330,用于通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征;
语言处理模块340,用于通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本;
其中,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
在一可选的实施例中,语言处理装置还包括模型训练模块,用于获取掩码语言模型,掩码语言模型包括语义特征编码网络和掩码预测网络;获取对应掩码预测任务的n个原始文本,并对n个原始文本进行掩码处理,得到n个第一类样本文本;通过语义特征编码网络分别对n个原始文本和n个第一类样本文本进行语义编码,得到n个原始文本的n个第一样本语义编码特征、n个第一类样本文本的n个第二样本语义编码特征;通过掩码预测网络对n个第二样本语义编码特征进行掩码预测,得到n个预测文本;根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取对比学习任务的对比损失;根据n个预测文本和n个原始文本,获取掩码预测任务的预测损失;根据对比损失和预测损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
在一可选的实施例中,模型训练模块用于确定目标掩码比例,并根据目标掩码比例确定n个原始文本的待掩码字符;将n个原始文本中的待掩码字符替换为预设掩码字符,得到n个第一类样本文本。
在一可选的实施例中,模型训练模块用于选取n个第一类样本文本中的任一第一类样本文本,并从选取的第一类样本文本所对应的原始文本中选取目标待掩码字符;根据选取的第一类样本文本所对应的第一样本语义编码特征,确定目标待掩码字符的字符编码特征;根据选取的第一类样本文本所对应的第二样本语义编码特征,确定目标待掩码字符对应的预设掩码字符的正例字符编码特征;从其它第一类样本文本及其它第一类样本文本对应的原始文本中选取负例字符,并根据其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定负例字符的负例字符编码特征;获取字符编码特征与正例字符编码特征之间的第一相似度,以及字符编码特征与负例字符编码特征之间的第二相似度;根据第一相似度和第二相似度获取对比损失。
在一可选的实施例中,模型训练模块用于获取对应对比损失的加权权重,并根据加权权重对对比损失进行加权计算,得到加权损失;融合加权损失和预测损失,得到融合损失;根据融合损失,对语义特征编码网络和掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
在一可选的实施例中,模型训练模块还用于获取对应不同语言处理类型的第二类样本文本,以及对应第二类样本文本的第一处理结果文本标签;构建对应每一语言处理类型的语言处理网络;针对每一语言处理类型,将对应的第二类样本文本输入语义特征编码网络进行语义编码,得到第三样本语义编码特征,并将第三样本语义编码特征输入对应的语言处理网络进行语言处理,得到第一样本处理结果文本,以及根据第一样本处理结果文本和对应的第一处理结果文本标签,获取每一语言处理类型的语言处理损失;根据每一语言处理类型的语言处理损失,对每一语言处理类型的语言处理网络的网络参数进行更新,直至满足第二预设更新停止条件。
在一可选的实施例中,模型获取模块320用于确定对应待处理文本的目标语言处理类型;获取目标语言处理类型对应的语言处理网络,以及获取语义特征编码网络;将语义特征编码网络、目标语言处理类型对应的语言处理网络,组合为语言处理模型。
以上各个模块的具体实施可参见前面的实施例,在此不再赘述。
本实施例中,首先由文本获取模块310获取到需要进行语言处理的待处理文本,此外还由模型获取模块320获取语言处理模型,该语言处理模型包括语义特征编码网络和语言处理网络,其中,该语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。然后,由语义编码模块330通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征,并进一步由语言处理模块340通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本。相较于相关技术,语义特征编码网络在训练阶段采用一样本文本中被掩码的字符在掩码前后的语义编码特征作为正例,能够拉近被掩码字符在掩码前后的语义表征,同时采用另一样本文本中字符的语义编码特征作为负例,使得语义特征编码网络学习的语义表征更具区分性,提升语义特征编码网络的语义表征能力,进而提升由语义特征编码网络结合下游语言处理任务的语言处理网络得到的语言处理模型的语言处理能力。
本申请实施例还提供一种电子设备,包括存储器和处理器,其中处理器通过调用存储器中存储的计算机程序,用于执行本实施例提供的语言处理方法中的步骤。
请参照图4,图4为本申请实施例提供的电子设备的结构示意图。
该电子设备可以包括一个或者一个以上处理核心的处理器101、一个或一个以上计算机可读存储介质的存储器102、电源103和输入单元104等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器101是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器102内的软件程序和/或模块,以及调用存储在存储器102内的数据,执行电子设备的各种功能和处理数据。可选的,处理器101可包括一个或多个处理核心;可选的,处理器101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器101中。
存储器102可用于存储软件程序以及模块,处理器101通过运行存储在存储器102的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器102还可以包括存储器控制器,以提供处理器101对存储器102的访问。
电子设备还包括给各个部件供电的电源103,可选的,电源103可以通过电源管理系统与处理器101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源103还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元104,该输入单元104可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元、图像采集组件等,在此不再赘述。具体在本实施例中,电子设备中的处理器101会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器102中,并由处理器101来执行本申请提供的语言处理方法中的步骤,比如:
接收输入的待处理文本,待处理文本包括需要进行语言处理的文本;
获取语言处理模型,语言处理模型包括语义特征编码网络和语言处理网络;
通过语义特征编码网络对待处理文本进行语义编码,得到待处理文本的语义编码特征;
通过语言处理网络对语义编码特征进行语言处理,得到待处理文本的处理结果文本;
其中,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的语言处理方法属于同一构思,其具体实现过程详见以上相关实施例,此处不再赘述。
或者,电子设备中的处理器101会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器102中,并由处理器101来执行本申请提供的模型训练方法中的步骤,比如:
获取预训练的语义特征编码网络,语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,对比学习任务的负例包括另一样本文本中字符的语义编码特征;
获取对应语言处理任务的o个第三类样本文本,以及对应o个第三类样本文本的o个第二处理结果文本标签;
构建对应语言处理任务的语言处理网络;
将o个第三类样本文本输入语义特征编码网络进行语义编码,得到o个第四样本语义编码特征;
将o个第四样本语义编码特征输入语言处理网络进行语言处理,得到o个第二样本处理结果文本;
根据o个第二样本处理结果文本和o个第二处理结果文本标签,获取语言处理损失;
根据语言处理损失,对语言处理网络的网络参数进行更新,直至满足第三预设更新停止条件;
将满足第三预设更新停止条件的语言处理网络和语义特征编码网络,组合为对应语言处理任务的语言处理模型。
本申请还提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在本申请实施例提供的电子设备的处理器上执行时,使得电子设备的处理器执行本申请提供的语言处理方法中的步骤,或者使得电子设备的处理器执行本申请提供的模型训练方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)或者随机存取器(Random Access Memory,RAM)等。
本申请还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语言处理方法或模型训练方法的各种可选实现方式。
以上对本申请所提供的一种语言处理方法、模型训练方法、装置、电子设备、存储介质及程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种语言处理方法,其特征在于,包括:
接收输入的待处理文本,所述待处理文本包括需要进行语言处理的文本;
获取语言处理模型,所述语言处理模型包括语义特征编码网络和语言处理网络;
通过所述语义特征编码网络对所述待处理文本进行语义编码,得到所述待处理文本的语义编码特征;
通过所述语言处理网络对所述语义编码特征进行语言处理,得到所述待处理文本的处理结果文本;
其中,所述语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,所述对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,所述对比学习任务的负例包括另一样本文本中字符的语义编码特征。
2.根据权利要求1所述的语言处理方法,其特征在于,所述接收输入的待处理文本之前,还包括:
获取掩码语言模型,所述掩码语言模型包括所述语义特征编码网络和掩码预测网络;
获取对应掩码预测任务的n个原始文本,并对所述n个原始文本进行掩码处理,得到n个第一类样本文本;
通过所述语义特征编码网络分别对所述n个原始文本和所述n个第一类样本文本进行语义编码,得到所述n个原始文本的n个第一样本语义编码特征、所述n个第一类样本文本的n个第二样本语义编码特征;
通过所述掩码预测网络对所述n个第二样本语义编码特征进行掩码预测,得到n个预测文本;
根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取所述对比学习任务的对比损失;
根据所述n个预测文本和所述n个原始文本,获取所述掩码预测任务的预测损失;
根据所述对比损失和所述预测损失,对所述语义特征编码网络和所述掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件。
3.根据权利要求2所述的语言处理方法,其特征在于,所述对所述n个原始文本进行掩码处理,得到n个第一类样本文本,包括:
确定目标掩码比例,并根据所述目标掩码比例确定所述n个原始文本的待掩码字符;
将所述n个原始文本中的待掩码字符替换为预设掩码字符,得到所述n个第一类样本文本。
4.根据权利要求3所述的语言处理方法,其特征在于,所述根据任一第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,以及其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,获取所述对比学习任务的对比损失,包括:
选取所述n个第一类样本文本中的任一第一类样本文本,并从选取的第一类样本文本所对应的原始文本中选取目标待掩码字符;
根据所述选取的第一类样本文本所对应的第一样本语义编码特征,确定所述目标待掩码字符的字符编码特征;
根据所述选取的第一类样本文本所对应的第二样本语义编码特征,确定所述目标待掩码字符对应的预设掩码字符的正例字符编码特征;
从其它第一类样本文本及其它第一类样本文本对应的原始文本中选取负例字符,并根据所述其它第一类样本文本对应的第一样本语义编码特征和第二样本语义编码特征,确定所述负例字符的负例字符编码特征;
获取所述字符编码特征与所述正例字符编码特征之间的第一相似度,以及所述字符编码特征与所述负例字符编码特征之间的第二相似度;
根据所述第一相似度和所述第二相似度获取所述对比损失。
5.根据权利要求2所述的语言处理方法,其特征在于,所述根据所述对比损失和所述预测损失,对所述语义特征编码网络和所述掩码预测网络的网络参数进行联合更新,直至满足第一预设更新停止条件,包括:
获取对应所述对比损失的加权权重,并根据所述加权权重对所述对比损失进行加权计算,得到加权损失;
融合所述加权损失和所述预测损失,得到融合损失;
根据所述融合损失,对所述语义特征编码网络和所述掩码预测网络的网络参数进行联合更新,直至满足所述第一预设更新停止条件。
6.根据权利要求2所述的语言处理方法,其特征在于,所述根据所述对比损失和所述预测损失,对所述语义特征编码网络和所述掩码预测网络的网络参数进行联合更新,直至满足预设更新停止条件之后,还包括:
获取对应不同语言处理类型的第二类样本文本,以及对应所述第二类样本文本的第一处理结果文本标签;
构建对应每一语言处理类型的语言处理网络;
针对每一语言处理类型,将对应的第二类样本文本输入所述语义特征编码网络进行语义编码,得到第三样本语义编码特征,并将所述第三样本语义编码特征输入对应的语言处理网络进行语言处理,得到第一样本处理结果文本,以及根据所述第一样本处理结果文本和对应的第一处理结果文本标签,获取每一语言处理类型的语言处理损失;
根据每一语言处理类型的语言处理损失,对每一语言处理类型的语言处理网络的网络参数进行更新,直至满足第二预设更新停止条件。
7.根据权利要求6所述的语言处理方法,其特征在于,所述获取语言处理模型,包括:
确定对应所述待处理文本的目标语言处理类型;
获取所述目标语言处理类型对应的语言处理网络,以及获取所述语义特征编码网络;
将所述语义特征编码网络、所述目标语言处理类型对应的语言处理网络,组合为所述语言处理模型。
8.一种模型训练方法,其特征在于,包括:
获取预训练的语义特征编码网络,所述语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,所述对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,所述对比学习任务的负例包括另一样本文本中字符的语义编码特征;
获取对应语言处理任务的o个第三类样本文本,以及对应所述o个第三类样本文本的o个第二处理结果文本标签;
构建对应所述语言处理任务的语言处理网络;
将所述o个第三类样本文本输入所述语义特征编码网络进行语义编码,得到o个第四样本语义编码特征;
将所述o个第四样本语义编码特征输入所述语言处理网络进行语言处理,得到o个第二样本处理结果文本;
根据所述o个第二样本处理结果文本和所述o个第二处理结果文本标签,获取语言处理损失;
根据所述语言处理损失,对所述语言处理网络的网络参数进行更新,直至满足第三预设更新停止条件;
将满足第三预设更新停止条件的语言处理网络和所述语义特征编码网络,组合为对应所述语言处理任务的语言处理模型。
9.一种语言处理装置,其特征在于,包括:
文本获取模块,用于接收输入的待处理文本,所述待处理文本包括需要进行语言处理的文本;
模型获取模块,用于获取语言处理模型,所述语言处理模型包括语义特征编码网络和语言处理网络;
语义编码模块,用于通过所述语义特征编码网络对所述待处理文本进行语义编码,得到所述待处理文本的语义编码特征;
语言处理模块,用于通过所述语言处理网络对所述语义编码特征进行语言处理,得到所述待处理文本的处理结果文本;
其中,所述语义特征编码网络由掩码语言模型采用掩码预测任务和对比学习任务训练得到,所述对比学习任务的正例包括一样本文本中被掩码的字符在掩码前后的语义编码特征,所述对比学习任务的负例包括另一样本文本中字符的语义编码特征。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的语言处理方法中的步骤,或者执行权利要求8所述的模型训练方法中的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的语言处理方法中的步骤,或者执行权利要求8所述的模型训练方法中的步骤。
12.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现权利要求1至7任一项所述的语言处理方法中的步骤,或者执行权利要求8所述的模型训练方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406855.3A CN116976283A (zh) | 2023-04-10 | 2023-04-10 | 语言处理方法、训练方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406855.3A CN116976283A (zh) | 2023-04-10 | 2023-04-10 | 语言处理方法、训练方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976283A true CN116976283A (zh) | 2023-10-31 |
Family
ID=88482092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406855.3A Pending CN116976283A (zh) | 2023-04-10 | 2023-04-10 | 语言处理方法、训练方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976283A (zh) |
-
2023
- 2023-04-10 CN CN202310406855.3A patent/CN116976283A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN118103834A (zh) | 一种信息获取方法以及装置 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN112486467B (zh) | 一种双重交互关系和注意力机制的交互式服务推荐方法 | |
CN116578729B (zh) | 内容搜索方法、装置、电子设备、存储介质和程序产品 | |
CN111291564B (zh) | 一种用于词向量获取的模型训练方法、装置和存储介质 | |
Niu | Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN114637855A (zh) | 基于知识图谱的搜索方法、装置、计算机设备及存储介质 | |
CN116976283A (zh) | 语言处理方法、训练方法、装置、设备、介质及程序产品 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
Wang et al. | Research on Multi-Label Text Classification Based on Multi-Channel CNN and BiLSTM | |
CN115329755B (zh) | 实体链接模型处理方法、装置和实体链接处理方法、装置 | |
CN114707633B (zh) | 特征提取方法、装置、电子设备和存储介质 | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN116561350B (zh) | 一种资源生成方法及相关装置 | |
Zeng et al. | Research on Named Entity Recognition Method Based on Option Hierarchical Reinforcement Learning | |
CN118228718A (zh) | 编码器处理方法、文本处理方法及相关设备 | |
Mouthami et al. | Text Sentiment Analysis of Film Reviews Using Bi-LSTM and GRU | |
CN116975215A (zh) | 信息处理方法、装置、电子设备、存储介质及程序产品 | |
CN117711001A (zh) | 图像处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |