CN110188360B

CN110188360B - 模型训练方法和装置

Info

Publication number: CN110188360B
Application number: CN201910493658.3A
Authority: CN
Inventors: 朱丹翔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2023-04-25
Anticipated expiration: 2039-06-06
Also published as: CN110188360A

Abstract

本发明实施例提出一种模型训练方法和装置，方法包括：利用第一BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，训练样本包括文字位置乱序的句子；根据多个任务的预测结果，计算模型损失值，模型损失值通过多个损失函数的损失值得出；根据计算的模型损失值，对第一BERT模型进行调整优化，以得到第二BERT模型。本发明实施例输入的训练样本由于是字词位置乱序的句子，因此在BERT模型训练时，每次都能训练句子中的所有字词，从而有效提升了模型收敛速度，减少了模型训练时间。

Description

模型训练方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种模型训练方法和装置。

背景技术

在现有的BERT(Bidirectional Encoder Representations from Transformers，变换的双向编码器表示)模型训练过程中，模型的训练任务包括预测句子关系的任务和预测句子中被遮蔽词的任务。其中，预测句子中被遮蔽词的具体方式为：随机将句子中的字或者词替换成一个遮蔽替代符，并且要求模型预测出被遮蔽的词是什么，这种方式可以使模型学会根据周围字词信息推断出被遮蔽掉的字词是什么，进而获取建模字词的能力。

但是缺点也很明显，输入的句子中被遮蔽掉的字词不能太多，如果比例过高，会导致句子缺失的信息太多，无法预测出被遮蔽掉的字词。现有的BERT模型使用了15％的字词遮蔽率可以训练出不错的语义表示模型，但是同时也导致每次只有15％的字词得到训练，进而减慢了模型收敛速度。

发明内容

本发明实施例提供一种模型训练方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种模型训练方法，包括：

利用第一变换双向编码器表征BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，所述训练样本包括文字位置乱序的句子；

根据所述多个任务的预测结果，计算模型损失值，所述模型损失值通过多个损失函数的损失值得出；

根据计算的模型损失值，对所述第一BERT模型进行调整优化，以得到第二BERT模型。

在一种实施方式中，根据所述多个任务的预测结果，计算模型损失值，包括：

利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值。

在一种实施方式中，根据所述多个任务的预测结果，计算模型损失值，还包括：

利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。

利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值。

在一种实施方式中，获取文字位置是否乱序的预测结果，包括：

通过所述第一BERT模型的最后一个变换Transformer结构，得到第一特征向量；

将所述第一特征向量输入第一全连接层，得到所述文字位置是否乱序的预测结果。

在一种实施方式中，获取文字位置重排序的预测结果，包括：

通过所述第一BERT模型的最后一个Transformer结构，得到第二特征向量；

将所述第二特征向量输入第二全连接层，得到所述文字位置重排序的预测结果。

第二方面，本发明实施例提供了一种模型训练装置，包括：

输出模块，用于利用第一变换双向编码器表征BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，所述训练样本包括文字位置乱序的句子；

计算模块，用于根据所述多个任务的预测结果，计算模型损失值，所述模型损失值通过多个损失函数的损失值得出；

优化模块，用于根据计算的模型损失值，对所述第一BERT模型进行调整优化，以得到第二BERT模型。

在一种实施方式中，所述计算模块包括：

第一计算子模块，用于利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值。

在一种实施方式中，所述计算模块包括：

第二计算子模块，用于利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。

在一种实施方式中，所述计算模块包括：

第三计算子模块，用于利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值。

第三方面，本发明实施例提供了一种模型训练终端，所述模型训练终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述模型训练终端的结构中包括处理器和存储器，所述存储器用于存储支持所述模型训练终端执行上述模型训练方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述模型训练终端还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储模型训练终端所用的计算机软件指令，其包括用于执行上述模型训练方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例输入的训练样本由于是字词位置乱序的句子，因此在BERT模型训练时，每次都能训练句子中的所有字词，从而有效提升了模型收敛速度，减少了模型训练时间。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的模型训练方法的流程图。

图2示出根据本发明另一实施例的模型训练方法的流程图。

图3示出根据本发明实施例的模型训练方法的步骤S210的具体流程图。

图4示出根据本发明实施例的模型训练方法的步骤S220的具体流程图。

图5示出根据本发明实施例的模型训练方法的步骤S200的具体流程图。

图6示出根据本发明实施例的模型训练方法的应用示例的框图。

图7示出根据本发明实施例的模型训练装置的结构框图。

图8示出根据本发明实施例的模型训练装置的计算模块的结构框图。

图9示出根据本发明实施例的模型训练终端的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的模型训练方法的流程图。如图1所示，该模型训练方法包括：

S100：利用第一BERT(Bidirectional Encoder Representations fromTransformers，变换双向编码器表征)模型对输入的训练样本进行处理，并输出多个任务的预测结果。其中，训练样本包括文字位置乱序的句子。

需要说明的是，第一BERT模型的模型结构可采用已有的BERT模型的模型结构。BERT模型由多层Transformer(变化)模型结构连接组成。每个Transformer模型至少具有：位置编码层(Positional Encoding)、模型编码层以及模型解码层。其中，模型编码层包括多头注意力机制(Multi-head self-attention)和位置全链接前馈网络(Position-wisefeed-forward networks)。模型解码结构与模型编码层结构类似，不再赘述。

模型的任务可以包括模型需要基于训练样本完成的预测任务。文字位置乱序的句子可以包括所有的文字位置均乱序的句子，例如，“天小今明萨吃披(今天小明吃披萨)”。还可以包括部分文字位置乱序的句子，例如，“天吃小今明披萨(今天小明吃披萨)”。

S200：根据多个任务的预测结果，进行模型损失值计算，模型损失值通过多个损失函数的损失值得出。每个任务均会对训练样本输出对应的预测结果。

S300：根据计算的模型损失值，对第一BERT模型进行调整优化，以得到第二BERT模型。

在一个示例中，根据计算的模型损失值，对第一BERT模型进行调整优化，以得到第二BERT模型，包括：

S10：判断计算的模型损失值是否达到预设损失值；

S20：若未达到，则采用反向传播算法根据计算的模型损失值对第一BERT模型的参数进行优化；

S30：利用参数优化后的第一BERT模型重新对训练样本进行处理；

S40：根据参数优化后的第一BERT模型输出的多个任务的预测结果，重新进行模型损失值计算；

S50：若损失值达到预设损失值，则认为模型收敛，将参数优化后的第一BERT模型作为最终训练得到的第二BERT模型。若损失值还未达到预设损失值，则重复步骤S10-S40，经过多轮迭代训练直至损失值达到预设损失值。

在一种实施方式中，如图2所示，根据多个任务的预测结果，进行模型损失值计算，包括：

S210：利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值。

在一个示例中，为了实现文字位置是否乱序的预测，需要向第一BERT模型中输入符合第一任务要求的训练样本。训练样本可以包括文字位置乱序句子，以及文字位置正确的句子。其中，文字位置乱序句子和文字位置正确的句子数量各占50％。例如，训练样本包括“今天小明吃披萨”、“天小今明萨吃披”、“小明今天吃的什么”、“今吃小天明什么”等。

在一种实施方式中，如图3所示，获取文字位置是否乱序的预测结果，包括：

S2110：通过第一BERT模型的最后一层Transformer(变换)结构，得到第一特征向量。第一特征向量中包含有与文字位置有关的信息。

在一个示例中，第一特征向量可以包括语法信息、语义信息、上下文信息等。

S2120：将第一特征向量输入第一全连接层，得到文字位置是否乱序的预测结果。第一全连接层可以与最后一层Transformer结构的cls(classification，分类)连接。

在一种实施方式中，如图2所示，根据多个任务的预测结果，进行模型损失值计算，还包括：

S220：利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。训练样本可以包括文字位置乱序句子，以及文字位置正确的句子。

在一个示例中，为了实现文字位置重排序的预测，需要向第一BERT模型中输入符合二任务要求的训练样本。训练样本可以包括文字位置乱序句子，以及文字位置正确的句子。其中，文字位置乱序句子和文字位置正确的句子数量各占50％。例如，训练样本包括“今天小明吃披萨”、“天小今明萨吃披”、“小明今天吃的什么”、“今吃小天明什么”等。

在一种实施方式中，如图4所示，获取文字位置重排序的预测结果，包括：

S2210：通过第一BERT模型的最后一层Transformer结构，得到第二特征向量。第二特征向量中包含有与文字位置有关的信息。

在一个示例中，第二特征向量可以包括语法信息、语义信息、上下文信息等。

S2220：将第二特征向量输入第二全连接层，得到文字位置重排序的预测结果。

S230：利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值。

在一个示例中，为了实现文字位置重排序的预测，需要向第一BERT模型中输入符合三任务要求的训练样本。训练样本可以包括上下句关系正确的句子，以及上下句关系错误的句子。其中，上下句关系正确的句子和上下句关系错误的句子数量各占50％。例如，训练样本包括“今天小明吃的什么，今天小明吃披萨，”、“今吃小天明什么，天小今明萨吃披”等。

在一种实施方式中，获取的句子关系预测结果，包括：

通过第一BERT模型的最后一层Transformer结构，得到CLS特征向量。

将CLS特征向量输入第三全连接层，得到句子关系预测结果。

在一种实施方式中，如图5所示，根据多个任务的预测结果，进行模型损失值计算，包括：

S220：利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。

S240：将第一损失值、第二损失值以及第三损失值相加，得到模型损失值。

在一个示例中，如图6所示，当输入第一BERT模型的训练样本为“天吃比明今萨小”时，第一BERT模型输出的重排序预测结果可以为“小明今天吃比萨”。然后通过重排序损失函数对预测结果进行计算。同时，第一BERT模型的最后一层cls输出的文字位置是否乱序预测结果通过文字乱序损失函数计算，第一BERT模型的最后一层cls输出的句子关系预测结果通过句子关系函数计算。

图7示出根据本发明实施例的模型训练装置的结构框图。如图7所示，该模型训练装置包括：

输出模块10，用于利用第一BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，训练样本包括文字位置乱序的句子。

计算模块20，用于根据多个任务的预测结果，进行模型损失值计算，模型损失值通过多个损失函数的损失值得出。

优化模块30，用于根据计算的模型损失值，对第一BERT模型进行调整优化，以得到第二BERT模型。

在一种实施方式中，如图8所示，计算模块20包括：

第一计算子模块21，用于利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值。

在一种实施方式中，如图8所示，计算模块20包括：

第二计算子模块22，用于利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。

在一种实施方式中，如图8所示，计算模块包括：

第三计算子模块23，用于利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图9示出根据本发明实施例的模型训练终端的结构框图。如图9所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的模型训练方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括：

通信接口930，用于与外界设备进行通信，进行数据模型训练传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

本发明实施例相比现有的对句子进行字词遮盖的方式，不会受到15％遮盖率的限制，每一次都能训练句子中100％的字词，进而有效提升了模型收敛速度。通过提升模型收敛速度来减少模型训练时间，不需要增加额外的硬件资源。并且本发明实施例还可以和fp16(Half-precision floating-point，半精度浮点数)、xla(Accelerated linearalgebra，加速线性代数器)等计算加速手段共存，进一步减少模型训练时间。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

根据所述多个任务的预测结果，计算模型损失值，包括：利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值；或，利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值；或，利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值，所述模型损失值通过多个损失函数的损失值得出；

2.根据权利要求1所述的方法，其特征在于，获取文字位置是否乱序的预测结果，包括：

3.根据权利要求1所述的方法，其特征在于，获取文字位置重排序的预测结果，包括：

4.一种模型训练装置，其特征在于，包括：

计算模块，用于根据所述多个任务的预测结果，计算模型损失值，进一步用于：利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值；或，利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值；或，利用第三任务对应的句子关系预测结果，通过句子关系损失函数计算第三损失值，所述模型损失值通过多个损失函数的损失值得出；

5.一种模型训练终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至3中任一项所述方法。

6.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述方法。