CN113408299B

CN113408299B - 语义表示模型的训练方法、装置、设备和存储介质

Info

Publication number: CN113408299B
Application number: CN202110738680.7A
Authority: CN
Inventors: 张帅; 王丽杰; 肖欣延; 常月
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-03-25
Anticipated expiration: 2041-06-30
Also published as: JP7358698B2; CN113408299A; JP2023007367A; US20230004721A1

Abstract

本公开提供了一种语义表示模型的训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及自然语言处理、深度学习等人工智能领域。语义表示模型的训练方法包括：基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；基于所述对比损失函数，训练所述语义表示模型。本公开可以在不修改模型结构的基础上，使得句子的语义表示包含句法信息。

Description

语义表示模型的训练方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及自然语言处理、深度学习等人工智能领域，尤其涉及一种语义表示模型的训练方法、装置、设备和存储介质。

背景技术

自然语言处理时，可以采用语义表示模型将句子转换为对应的语义表示，以便后续处理。句子的句法结构不同，会引起语义的很大不同。

相关技术中，可以修改语义表示模型的结构，引入句法信息，对语义表示模型进行训练。

发明内容

本公开提供了一种语义表示模型的训练方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种语义表示模型的训练方法，包括：基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；基于所述对比损失函数，训练所述语义表示模型。

根据本公开的另一方面，提供了一种语义表示模型的训练装置，包括：获取模块，用于基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；编码模块，用于采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；构建模块，用于基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；训练模块，用于基于所述对比损失函数，训练所述语义表示模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以在不修改模型结构的基础上，使得句子的语义表示包含句法信息。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是用来实现本公开实施例的语义表示模型的训练方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

句子的句法信息不同时，可以对应不同的语义。比如，“Q1：奶奶去世孙子有继承权么”，“Q2:孙子去世奶奶有继承权么”，上面两个句子虽然字面相近，但表达的语义却完全不同。

相关技术中，可以通过修改语义表示模型的结构使得语义表示包含句法信息，但是，这种修改模型结构的方式，不利于下游任务的使用，并且准确度方面也存在问题。

图1是根据本公开第一实施例的示意图，本实施例提供一种语义表示模型的训练方法，包括：

101、基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本。

102、采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示。

103、基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数。

104、基于所述对比损失函数，训练所述语义表示模型。

其中，可以预先收集句子作为样本，之后基于句子训练语义表示模型。

获取句子后，可以对句子进行依存句法分析，以获得所述句子的句法信息。

依存句法分析是自然语言处理核心技术之一，旨在通过分析句子中词语之间的依存关系来确定句子的句法信息。

以句子“百度是一家高科技公司”为例，对该句子进行依存句法分析后，获得的句法信息如图2所示。句法信息中可以包括句子中各词语之间的关系，不同的关系可以用不同的符号进行标注，图2中各词语之间的关系标注含义为：

HED：核心关系，指整个句子的核心；

SBV：主谓关系，指主语与谓词之间的关系；

VOB：动宾关系，指宾语与谓词之间的关系；

ATT：定中关系，指定语与中心词之间的关系。

通过对句子进行依存句法分析，可以方便快捷地获取句子的句法信息。

获得句子的句法信息后，可以基于句法信息，构建句法树，基于图2所示的示例，构建的句法树可以如图3所示。

获得句法树后，可以将所述句法树包含的子树对应的文本作为正样本，基于所述子树中的词语获取另一文本，该另一文本包含所述词语，且所述另一文本不对应所述句法树中的子树，将所述另一文本作为负样本。为了区分，作为正样本的文本可以称为第一文本，作为负样本的文本可以称为第二文本。

比如，如图3所示，“一家”“高科技”“公司”这三个词语(token)可以组成句法树中的一个子树，则可以将该子树对应的文本“一家高科技公司”作为一个正样本。

通过基于句法树的子树获得正样本和负样本，可以提高正负样本的准确度。

获得正样本对应的子树后，可以基于所述子树中的词语获取负样本。

为了提高语义表示模型的训练效果，一般来讲，正样本和负样本可以包含相同个数的词语。即，可以基于所述子树中的词语，在所述句子中选择词语连续，且词语个数与所述正样本包括的词语的个数相同的文本，作为第二文本。

以“一家”“高科技”“公司”这三个词语组成的子树为例，可以基于其中的词语“高科技”获取负样本，比如，文本“是一家高科技”包括了三个词语，且三个词语连续，且这三个词语中包括了“高科技”，因此，可以将该文本是一家高科技”作为负样本。

通过选择词语个数与正样本的词语个数相同的文本作为负样本，可以提高语义表示模型的效果。

对应一个正样本，可以选择多个负样本。比如，对应上述的正样本“一家高科技公司”，还可以基于其中的词语“一家”，选择“百度是一家”作为一个负样本。

锚样本可以是上述整句的句子，或者，锚样本也可以是上述子树中的对应正样本和负样本的词语，比如，可以将上述整句的“百度是一家高科技公司”作为锚样本，或者，也可以将上述的“高科技”作为锚样本。

通过选择整句或者对应正负样本的词语，可以扩展锚样本的数据，进而提高语义表示模型的效果。

获得锚样本、正样本和负样本后，可以将其分别输入到语义表示模型中，以分别获得对应的语义表示。

语义表示模型是指将句子转换为对应的向量表示的模型，可以采用各种相关的预训练模型结构，比如，基于Transformer的双向编码表示(Bidirectional EncoderRepresentations from Transformers，BERT)、优化的BERT(A Robustly Optimized BERTPretraining Approach，RoBERTa)、知识增强语义表示(Enhanced Representation fromkNowledge IntEgration，ERNIE)等模型。

如图4所示，以锚样本为句子为例，可以将句子输入到语义表示模型中，输出的表示可以称为锚样本语义表示，正样本输入到语义表示模型中，输出的表示可以称为正样本语义表示，负样本输入到语义表示模型中，输出的表示可以称为负样本语义表示。

之后，可以基于这三种语义表示构建对比损失函数。

对比损失函数是指对比学习时采用的损失函数，对比学习是自监督学习的一种，旨在拉近正样本，拉远负样本。

对比损失函数的一种计算公式表示为：

其中，L为对比损失函数，q是锚样本，k⁺是正样本，k_i是第i个负样本，负样本的总数为K，θ是语义表示模型的参数，f(*,θ)是*经过语义表示模型处理后得到的对应的语义表示，τ是超参数，sim()表示向量间的相似度计算。

获得对比损失函数后，可以采用对比损失函数训练语义表示模型，即基于对比损失函数调整语义表示模型的参数，直至达到预设的结束条件，结束条件比如为对比损失函数收敛或者达到预设的迭代次数，将达到预设的结束条件时的模型参数作为最终的模型参数，对应的语义表示模型作为最终的语义表示模型，从而可以应用该最终的语义表示模型对句子进行处理，以获得包含句法信息的句子对应的语义表示。

本实施例中，基于句子的句法信息获得正样本和负样本，并基于锚样本、正样本和负样本训练语义表示模型，可以在不修改模型结构的基础上，使得句子的语义表示包含句法信息。

进一步地，本实施例的方法可以应用在预训练过程中，即，在语义表示模型的预训练过程中，采用上述的对比损失函数进行训练，而不需要更改预训练模型的结构，这样在下游任务应用该预训练模型时，做到下游任务无感知。另外，在下游任务应用该预训练模型进行微调(finetuning)时，也不需要引入句法信息，不会影响下游任务的性能。本实施例可以在语义表示中隐式地包含句法信息，相对于显式使用句法信息的方式，比如，增加预测每个词语的父节点的预训练任务，可以避免句法的错误累积，提高语义表示模型的准确度。

图5是根据本公开第五实施例的示意图，本实施例提供一种语义表示模型的训练装置。如图5所示，该装置500包括：获取模块501、编码模块502、构建模块503和训练模块504。

获取模块501用于基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；编码模块502用于采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；构建模块503用于基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；训练模块504用于基于所述对比损失函数，训练所述语义表示模型。

一些实施例中，该装置500还包括：分析模块，用于对所述句子进行依存句法分析，以获得所述句子的句法信息。

一些实施例中，所述获取模块501具体用于：基于所述句子的句法信息，构造句法树；获取所述句法树包含的子树对应的第一文本，将所述第一文本作为正样本；基于所述子树中的词语，获取第二文本，所述第二文本包含所述词语且与所述子树对应的文本不同，将所述第二文本作为负样本。

一些实施例中，所述获取模块501进一步具体用于：基于所述子树中的词语，在所述句子中选择词语连续，且词语个数与所述正样本包括的词语的个数相同的文本，作为第二文本。

一些实施例中，所述获取模块501具体用于：将所述句子作为锚样本；或者，将所述句子对应的句法树包含的子树中的词语，作为锚样本。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元606加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语义表示模型的训练方法。例如，在一些实施例中，语义表示模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语义表示模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义表示模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义表示模型的训练方法，包括：

基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；

采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；

基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；

基于所述对比损失函数，训练所述语义表示模型；

其中，所述基于所述句子的句法信息，获得正样本和负样本，包括：

基于所述句子的句法信息，构造句法树；

获取所述句法树包含的子树对应的第一文本，将所述第一文本作为正样本；

基于所述子树中的词语，获取第二文本，所述第二文本包含所述词语且与所述子树对应的文本不同，将所述第二文本作为负样本。

2.根据权利要求1所述的方法，其中，还包括：

对所述句子进行依存句法分析，以获得所述句子的句法信息。

3.根据权利要求1所述的方法，其中，所述基于所述子树中的词语，获取第二文本，包括：

基于所述子树中的词语，在所述句子中选择词语连续，且词语个数与所述正样本包括的词语的个数相同的文本，作为第二文本。

4.根据权利要求1-3任一项所述的方法，其中，所述基于句子获得锚样本，包括：

将所述句子作为锚样本；或者，

将所述句子对应的句法树包含的子树中的词语，作为锚样本。

5.一种语义表示模型的训练装置，包括：

获取模块，用于基于句子获得锚样本，以及，基于所述句子的句法信息，获得正样本和负样本；

编码模块，用于采用语义表示模型分别对所述锚样本、所述正样本和所述负样本进行处理，以获得锚样本语义表示、正样本语义表示和负样本语义表示；

构建模块，用于基于所述锚样本语义表示、所述正样本语义表示和所述负样本语义表示，构建对比损失函数；

训练模块，用于基于所述对比损失函数，训练所述语义表示模型；

其中，所述获取模块具体用于：

基于所述句子的句法信息，构造句法树；

6.根据权利要求5所述的装置，其中，还包括：

分析模块，用于对所述句子进行依存句法分析，以获得所述句子的句法信息。

7.根据权利要求5所述的装置，其中，所述获取模块进一步具体用于：

8.根据权利要求5-7任一项所述的装置，其中，所述获取模块具体用于：

将所述句子作为锚样本；或者，

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。