CN115481246A

CN115481246A - 文本检测模型训练方法以及装置

Info

Publication number: CN115481246A
Application number: CN202211122850.XA
Authority: CN
Inventors: 姚武冠楠
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-16

Abstract

本说明书实施例提供一种文本检测模型训练方法以及装置，其中所述文本检测模型训练方法包括：获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域上，降低了模型迁移难度。

Description

文本检测模型训练方法以及装置

技术领域

本说明书实施例涉及模型训练技术领域，特别涉及一种文本检测模型训练方法。

背景技术

在当前的机器学习实践中，预训练模型和注意力机制在各项文本任务中均取得良好的性能，并具有较强的泛化性能。但在处理异质性文本数据(不同语法结构的文本数据)的情景中，很难将一个采用通用文本的预训练模型同时微调到不同语言结构、表述模式的文本上，尤其是当下游任务的语言结构与预训练任务所采用的语料有较大差异时，模型泛化将会变得更加困难。

发明内容

有鉴于此，本说明书实施例提供了一种文本检测模型训练方法。本说明书一个或者多个实施例同时涉及一种文本检测模型训练装置，一种类别检测方法，一种类别检测装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本检测模型训练方法，包括：

获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；

在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；

根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。

根据本说明书实施例的第二方面，提供了一种文本检测模型训练装置，包括：

第一训练模块，被配置为获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；

参数确定模块，被配置为在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；

第二训练模块，被配置为根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。

根据本说明书实施例的第三方面，提供了一种类别检测方法，包括：

将目标对象的描述信息输入类别检测模型的嵌入层，得到描述编码向量，其中，所述描述信息的类别为至少两种；

将所述描述编码向量输入所述类别检测模型的注意力机制层，得到描述输出数据；

根据本说明书实施例的第四方面，提供了一种类别检测装置，该装置包括：

嵌入模块，被配置为将目标对象的描述信息输入类别检测模型的嵌入层，得到描述编码向量，其中，所述描述信息的类别为至少两种；

注意力模块，被配置为将所述描述编码向量输入所述类别检测模型的注意力机制层，得到描述输出数据；

检测模块，被配置为将所述描述输出数据输入所述类别检测模型的检测层，得到所述目标对象的类别信息。

将所述描述输出数据输入所述类别检测模型的检测层，得到所述目标对象的类别信息。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本检测模型训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述文本检测模型训练方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本检测模型训练方法的步骤。

本说明书实施例提供一种文本检测模型训练方法以及装置，其中所述文本检测模型训练方法包括：获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。通过在初始参数中增加标签参数，得到目标参数，以使可以根据目标参数、样本数据以及样本数据的标签执行第二预训练任务，得到目标模型，由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域(应用场景)上，从而不用针对每种类型的文本数据单独进行模型训练，降低了模型迁移难度，提高了模型的泛化能力。

附图说明

图1a是本说明书一个实施例提供的一种文本检测模型训练方法的场景示意图；

图1b是本说明书一个实施例提供的一种文本检测模型训练方法的训练示意图；

图2a是本说明书一个实施例提供的一种文本检测模型训练方法的流程图；

图2b是本说明书一个实施例提供的一种文本检测模型训练方法的初始参数示意图；

图2c是本说明书一个实施例提供的一种文本检测模型训练方法的目标参数示意图；

图2d是本说明书一个实施例提供的一种文本检测模型训练方法的检测层示意图；

图3是本说明书一个实施例提供的一种类别检测方法的流程图；

图4是本说明书一个实施例提供的一种文本检测模型训练装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

异质文本：具有不同语言结构、表述模式等元特征的文本数据。

注意力机制：深度学习中形如E＝g(Q,K,V)＝softmax(normalize(QK^T))V的一种网络结构。

自注意力机制：Self Attention，对序列数据，在注意力机制中Q＝K＝V＝X的一种特殊情形。

多头注意力机制：Multihead Attention，在注意力机制中将softmax平均拆分为多组的一种变体。

预训练：一种大模型的训练范式，首先以预训练任务将模型在大样本上进行无监督或少监督的训练，再将其微调至下游任务上。

Transformer：一种基于注意力机制的序列模型结构。

BERT：一种基于双向Transformer的预训练模型。

word embedding：也称为词嵌入，将一个词或者特征转化为一个向量。

MLM/NSP：两种预训练任务。

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。

循环神经网络(Recurrent Neural Network,RNN)：是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

多层感知器(MLP，Multilayer Perceptron)：是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

CLS：就是classification的意思，可以理解为用于下游的分类任务。

文本处理模型领域经历了从传统W2V(word2vec，也是word embedding的一种，它会将一个词映射到一个固定维度的向量中(不随语料的变化而变化)，并且能够在一定程度上反映出词与词之间的关系)到语言模型，再到CNN或一些基于RNN的深度学习模型的转变。当前，transformer作为一种完全基于MLP的实现方案，能够克服CNN/RNN模型难以并行等一系列缺陷，从而成为文本处理模型的SOTA(最前沿的)。BERT作为transformer的一种实现方案，利用MLM/NSP两个预训练任务将文本数据中存在的通用结构蒸馏到模型中，从而能够为下游任务所利用。

目前学术界存在一些针对异质性文本融合的方法，如：PTE(预测性文本嵌入)，但大多数此类方案无法与文本模型当前的SOTA(最前沿的)方法BERT直接融合。在深度学习或Transformer的范式里，有一些工作试图通过预测多源文本的源标签将不同源的元特征注入表示向量中，但类似方案将改变BERT原始CLS token所表示的含义，从而产生类似冷启动的问题，并对下游任务产生影响，甚至产生灾难性遗忘现象；非Transformer范式中，也有一些基于图的融合方法。

如前所述，当前针对异质性文本的方案均难以与注意力机制结合，因此提高了很多大型的预训练模型的迁移难度。

基于此，提出一种能够将在某一语料上预训练的模型以较低的成本迁移到多个新的域上，并且能够实现多个不同域的信息共享。在本说明书中，提供了一种文本检测模型训练方法，本说明书同时涉及一种文本检测模型训练装置，一种类别检测方法，一种类别检测装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1a，图1a示出了根据本说明书一个实施例提供的一种文本检测模型训练方法的场景示意图。一家公司有很多信息，包括营业执照、招聘信息和专利信息等，将公司的信息输入公司分类模型，即可对该公司的类别进行确定。在进行公司的类别确定之前，还得训练公司分类模型。参见图1b，图1b示出公司分类模型的训练的示意图，其中，包括加载参数模块，预训练任务模块，初始化额外参数模块，额外参数预训练任务模块，初始化模型头模块以及下游任务微调模块。

公司分类的场景中，在加载参数模块获取预训练好的模型的参数，确定要执行训练任务的模型，将公司的不同来源的信息(如，招聘信息、营业执照信息等)进行编码，得到编码向量X，输入预训练任务模块，以执行预训练任务，得到第一模型。

在初始化额外参数模块中，对第一模型加入新的标签参数，以使在额外参数预训练任务模块，可以输入编码向量X，以及编码向量X对应的标签向量Y以执行训练任务，得到第二模型。

因为需要应用的场景为公司分类的场景，所以初始化模型头模块中，对第二模型加入针对公司分类的场景的模型头，得到第三模型，然后在下游任务微调模块中，向第三模型中输入，编码向量X、编码向量X对应的标签向量Y以及全局向量Z(如：公司名称)，得到公司分类模型，然后可以利用公司分类模型对公司进行分类。

由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域上，降低了模型迁移难度。

参见图2a，图2a示出了根据本说明书一个实施例提供的一种文本检测模型训练方法的流程图，具体包括以下步骤。

步骤202：获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据。

其中，预训练模型可以为基于注意力机制的模型，例如，BERT模型；预训练参数可以为预训练模型的参数，例如，预训练模型的参数包括K、Q、V矩阵；第一预训练任务可以为以多种结构类型的文本作为输入的训练任务，相应地，上述多种结构类型的文本即可以为至少两个类型的文本数据，至少两个类型的文本数据可以为不同语法结构的文本数据，需要说明的是，语言结构可以指的是语言的组成方式，如，一种语言结构为：我们需要您具有一定的专业能力，这句语句中，包含主语，动词，宾语等形式的词语，另一种语言结构为：甲方，乙方……，其中仅包括主语，而没有谓语、宾语等形式的词语。例如，在合同中的文本数据可以为：甲方、乙方、签名等，公司的招聘信息对应的文本数据可以为：我们需要您具有一定的专业能力。

在实际应用中，可以使用预训练好的BERT模型，提取BERT模型的参数，在其他相对应的模型上执行第一预训练任务，也可以直接使用上述预训练好的BERT模型执行第一预训练任务。

例如，获取预训练好的BERT模型，将公司信息的营业资质信息：“文化艺术活动交流策划、网络、多媒体”等文字，以及公司信息的招聘信息：“我们需要您具有一定的专业能力”，输入该BERT模型，即该BERT模型执行了第一预训练任务。

本说明书实施例通过用至少两个类型的文本数据进行训练，不用针对每种类型的文本数据单独进行模型训练，提高了模型的泛化能力。

具体地，因为可能存在其他训练需求，所以在进行模型训练的时候，不直接使用预训练模型，执行第一训练任务可以提取BERT模型的参数，在其他相对应的模型上执行，具体实施方式如下所述。

所述根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，包括：

根据所述预训练参数确定第一训练模型，其中，所述第一训练模型的参数与所述预训练参数的参数对应；

将所述预训练参数作为所述第一训练模型的训练参数，添加至所述第一训练模型；

根据所述样本数据对所述第一训练模型进行训练，获得所述第一训练模型训练后的初始参数。

其中，第一训练模型可以为基于注意力机制的模型；所述第一训练模型的参数与所述预训练参数对应，可以理解为第一训练模型需要的参数与预训练参数相同。

在实际应用中，可以将提取到的预训练参数加载到相应的模型中，基于加载了预训练参数的模型执行第一预训练任务，以得到初始参数。具体的训练实施方式如下所述。

在一种可实现的方式中，所述根据所述样本数据对所述第一训练模型进行训练，获得所述第一训练模型训练后的初始参数，包括：

将所述样本数据输入所述第一训练模型的嵌入层，得到第一样本编码向量；

将所述第一样本编码向量输入所述第一训练模型的注意力机制层，得到第一输出数据以及训练后的初始参数。

其中，嵌入层可以理解为将文本数据转换为编码向量的网络层；样本编码向量可以为样本数据经过编码的向量；第一输出数据为第一训练模型输出的数据；初始参数可以为经过第一预训练任务得到的模型的参数。

在实际应用中，BERT中的一个核心模块是自注意力机制(SelfAttention)，在一个序列的表示向量X的基础上，通过映射g(KX,QX,VX)，得到变换后的序列表示tilde{X}，其中K、Q、V为矩阵，通常为压缩映射，称为key map，query map和value map。在一个同质的训练集上，K、Q、V是全局的，不依赖于文本的来源。

例如，确定一个与预训练参数匹配的BERT模型，并将预训练参数加载到该BERT模型中，将公司信息的营业资质信息：“文化艺术活动交流策划、网络、多媒体”等文字，以及公司信息的招聘信息：“我们需要您具有一定的专业能力”，输入该BERT模型，在BERT模型的嵌入层中，会将是这些语句数据转化为编码向量X，再将编码向量X与K、Q、V矩阵相乘，经过映射g(KX,QX,VX)，得到变换后的序列表示tilde{X}。

直接使用上述预训练好的BERT模型执行第一预训练任务的具体实现方式如下所述。

在一种可实现的方式中，所述根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，包括：

将所述样本数据输入所述预训练模型的嵌入层，得到第二样本编码向量，其中，所述预训练模型的参数为所述预训练参数；

将所述第二样本编码向量输入所述预训练模型的注意力机制层，得到第二输出数据以及训练后的初始参数。

实际应用中，可能存在先进行预训练得到预训练模型的情况，那么可以直接使用预训练模型执行第一预训练任务。

例如，参见图2b，图2b示出本说明书一种文本检测模型训练方法的初始参数示意图，在经过预训练之后得到预训练模型，该预训练模型为一个BERT模型，将公司信息的营业资质信息：“文化艺术活动交流策划、网络、多媒体”等文字，以及公司信息的招聘信息：“我们需要您具有一定的专业能力”，输入该BERT模型，在BERT模型的嵌入层中，会将是这些语句数据转化为编码向量X，再将编码向量X与K、Q、V矩阵相乘，经过多头注意力模块g，即经过映射g(KX,QX,VX)，得到变换后的序列表示，即输出数据：tilde{X}。

本说明书实施例利用训练好的预训练模型进行第一训练任务，减少了训练时间，提高了训练效率。

步骤204：在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征。

其中，初始参数可以为经过第一预训练任务的模型的参数；标签参数为针对样本数据的标签进行处理的参数，例如，标签参数包括K1、Q1、V1矩阵；目标参数可以为包括针对样本数据进行处理的参数以及针对样本数据的标签进行处理的参数，例如，目标参数包括K、Q、V矩阵以及K1、Q1、V1矩阵；标签可以为文本数据的概括描述文本，例如，文本数据为“文化艺术活动交流策划、网络、多媒体”，那么，该文本数据对应的标签为：“营业执照信息”。

在实际应用中，在异质性文本的情况下，我们的训练数据不再是一致的形如{X_i}的N条数据，而是带有标签的形如{X_i,Y_i}的形式，其中Y_i为文本X_i属于某个来源的标签，如在我们计划应用的行业分类模块中，Y_i可以表示经营范围描述、专利信息等。

例如，在初始参数中，仅包括对文本数据的编码向量X的处理参数，加入针对标签向量进行处理的标签参数。

在一种可实现的方式中，所述初始参数包括查询矩阵、键矩阵和值矩阵；

相应地，所述在所述初始参数中增加标签参数，得到目标参数，包括：

在所述初始参数中增加查询标签矩阵、键标签矩阵以及值标签矩阵，得到目标参数。

其中，查询矩阵(query map)可以为上述实施例中的Q矩阵，键矩阵(key map)可以为上述实施例中的K矩阵，值矩阵(value map)可以为上述实施例中的V矩阵，

在实际应用中，为了使得一个较大的预训练模型能够适应这种异质性，我们将Y_i嵌入为与K、Q、V相同的稠密矩阵，为可训练的自由参数，称之为标签嵌入。在极端的情况下，在BERT的每一个SelfAttention模块可以引入不同的标签嵌入，即

其中g表征一个原始的Multihead Attention模块，tilde{K}表征Y_i对于对应的层的key map嵌入，K表征原始参数，由预训练模型得到，X表征某一层的序列嵌入输出，Y表征某一层的源标签嵌入输出。由于上述模块得到的表示向量的维度与输入X的维度产生了变化，为了保持与原始BERT结构的可比性，其后续MLP将把此模块的输出重新压缩至输入的维度。

需要说明的是，新的参数可通过冻结预训练参数，并复用上游模型的、预训练任务单独训练得到。

例如，在初始参数中加入标签参数，标签参数包括K1、Q1、V1矩阵。

本说明书实施例通过加入可以针对标签变量进行处理的参数，以使后续可以通过标签参数进行处理标签数据，能够捕捉异质文本上不同的交互结构，并将其融入预训练的表示向量中，从而对不同性质的文本得到一个统一的嵌入空间结构。

步骤206：根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。

其中，第二预训练任务可以为通过样本数据以及样本数据的标签进行训练的任务；目标模型可以为训练好的、基于注意力机制的模型，如，BERT模型，或其他的transform模型。

在实际应用中，利用{X_i}和{X_i,Y_i}进行微调，对原始参数直接冻结或使用较小的学习率，对新增模块的冷启动参数使用正常的学习率，此为预训练流程。以BERT为例，MLM任务可以直接复用，NSP任务可以利用当前数据集进行重构，如描述同一对象的文本可以构造序对(X_ij,X_ij’)对NSP任务进行监督。

具体地，可以直接使用第一训练模型继续进行训练，具体实现方式如下所述。

在获得所述第一训练模型训练后的初始参数之后，还包括：

在训练后的所述第一训练模型的参数中添加标签参数，得到第二训练模型；

根据所述样本数据以及所述样本数据的标签对所述第二训练模型进行训练，获得目标模型。

其中，第二训练模型可以为执行第二预训练任务的模型。

在实际应用中，可以直接使用经过第一预训练任务，训练后的所述第一训练模型执行第二预训练任务。

例如，在经过第一预训练任务之后得到第二训练模型，该第二训练模型为一个BERT模型，将公司信息的营业资质信息：“文化艺术活动交流策划、网络、多媒体”等文字，以及公司信息的招聘信息：“我们需要您具有一定的专业能力”，输入该BERT模型，在BERT模型的嵌入层中，会将是这些语句数据转化为编码向量X，再将编码向量X与K、Q、V矩阵相乘。另外还输入“文化艺术活动交流策划、网络、多媒体”对应的标签：“营业执照信息”、以及“我们需要您具有一定的专业能力”对应的标签：“招聘信息”，标签在BERT模型的嵌入层中转化为标签向量Y，再将编码向量X与K1、Q1、V1矩阵相乘，经过注意力模块g，即经过映射g(KX,QX,VX)，得到变换后的序列表示，即输出数据：tilde{X}。

在一种可实现的方式中，还可以获取目标参数，使用目标参数配置其他的模型执行第二预训练任务，具体实施方式如下所述。

所述根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型，包括：

根据所述目标参数确定第二训练模型，其中，所述第二训练模型的参数与所述目标参数的参数对应；

将所述目标参数作为所述第二训练模型的训练参数，添加至所述第二训练模型；

在实际应用中，可以将目标参数加载到相应的模型中，基于加载了目标参数的模型执行第二预训练任务，以得到目标模型。具体的训练实施方式如下所述。

所述根据所述样本数据以及所述样本数据的标签对所述第二训练模型进行训练，包括：

将所述样本数据和所述样本数据的标签输入所述第二训练模型的嵌入层，得到第三样本编码向量和标签编码向量；

将所述第三样本编码向量和所述标签编码向量输入所述第二训练模型的注意力机制层，得到第三输出数据以及训练后的目标模型。

例如，参见图2c，图2c示出本说明书一种文本检测模型训练方法的目标参数示意图，确定一个与目标参数匹配的BERT模型，并将目标参数加载到该BERT模型中，将公司信息的营业资质信息：“文化艺术活动交流策划、网络、多媒体”等文字，以及公司信息的招聘信息：“我们需要您具有一定的专业能力”，输入该BERT模型，在BERT模型的嵌入层中，会将是这些语句数据转化为编码向量X，再将编码向量X与K、Q、V矩阵相乘。另外还输入“文化艺术活动交流策划、网络、多媒体”对应的标签：“营业执照信息”、以及“我们需要您具有一定的专业能力”对应的标签：“招聘信息”，标签在BERT模型的嵌入层中转化为标签向量Y，再将编码向量X与K1、Q1、V1矩阵相乘，经过多头注意力模块g，即经过映射g(KX,QX,VX)，得到变换后的序列表示，即输出数据：tilde{X}。

本说明书实施例通过以文本源嵌入的方式使得微调模型能够充分利用预训练模型和下游任务语料的共性特征，并能够捕捉差异性，提高预训练模型在下游任务上的性能。

由于上述目标模型输出的是序列表示，还无法直接应用于具体的问题，所以进一步地，在得到目标模型之后，还包括：

根据任务需求确定目标检测层；

在所述目标模型的注意力机制层之后加入所述目标检测层，得到应用模型。

其中，任务需求可以为模型的具体用途场景，如，公司分类；目标检测层可以为检测头(模型头)。

在实际应用中，训练后的目标模型还需要加入与使用场景对应的模型头，才能进行实际应用。

例如，参见图2d，图2d示出一种文本检测模型训练方法的检测层示意图，其中，包括输入层，嵌入层和注意力机制层。通过在输入层输入文本数据，以及文本数据的标签，例如，文本数据为“我们需要您具有一定的专业能力”，该文本数据对应的标签为“招聘信息”，通过嵌入层将文本数据转化为编码向量X以及标签向量Y，将编码向量X以及标签向量Y输入注意力机制层，经过注意力机制层中的N个叠加的transform模块，输出序列表示：tilde{X}，将序列表示通过用于公司分类的检测层进行输出，得到公司的类别，如：“科技类公司”。

本说明书实施例通过加入检测头，可以使目标模型应用于不同的场景，扩大了模型的应用范围。

在一种可实现的方式中，在得到应用模型之后，还包括：

根据所述应用模型、所述样本数据以及所述样本数据的标签执行第三训练任务，得到类别检测模型。

在实际应用中，对于下游任务，如文本分类或者文本相似度任务，可以在第一阶段的基础上进行正常的模型微调，可以获得更好的识别检测效果。

例如，对于文本分类任务，可以使用预训练的Pooler(BERT模型中一种类型的输出)，也可以使用冷启动的Pooler，利用标签信息对模型头进行优化。

本说明书实施例提供一种文本检测模型训练方法以及装置，其中所述文本检测模型训练方法包括：获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。通过在初始参数中增加标签参数，得到目标参数，以使可以根据目标参数、样本数据以及样本数据的标签执行第二预训练任务，得到目标模型，由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域上，降低了模型迁移难度。

参见附图3，图3示出了本说明书一个实施例提供的一种类别检测方法的流程图，具体包括以下步骤。

步骤302：将目标对象的描述信息输入类别检测模型的嵌入层，得到描述编码向量，其中，所述描述信息的类别为至少两种。

其中，目标对象可以为个人、公司等对象；描述信息可以为营业执照、专利信息等信息；类别检测模型可以为上述实施例中训练得到的类别检测模型。

在实际应用中，公司会存在多种信息源，如，营业执照信息，专利信息，招聘信息等，将这些信息通过训练好的类别检测模型可以得到该公司的类别信息。

例如，公司的描述信息为“我们需要您具有一定的专业能力”，该描述信息对应的标签为“招聘信息”，通过嵌入层将描述信息转化为编码向量X以及标签向量Y。

步骤304：将所述描述编码向量输入所述类别检测模型的注意力机制层，得到描述输出数据。

其中，类别检测模型可以为基于注意力机制的模型，例如，BERT模型；描述输出数据可以为描述信息的序列表示。

例如，将编码向量X以及标签向量Y输入注意力机制层，经过注意力机制层中的N个叠加的transform模块，输出序列表示：tilde{X}，

步骤306：将所述描述输出数据输入所述类别检测模型的检测层，得到所述目标对象的类别信息。

其中，检测层可以为检测头(模型头)。

例如，将序列表示：tilde{X}，通过用于公司分类的检测层进行输出，得到公司的类别，如：“科技类公司”。

本说明书实施例通过使用类别检测模型进行类别检测，类别检测模型可加的融入形式不改变原有模型的参数结构，能够得到有效的加载和利用，从而能够克服源标签预测等方法改变表示向量含义的缺点,从而提高了检测准确性。

与上述方法实施例相对应，本说明书还提供了文本检测模型训练装置实施例，图4示出了本说明书一个实施例提供的一种文本检测模型训练装置的结构示意图。如图4所示，该装置包括：

第一训练模块402，被配置为获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；

参数确定模块404，被配置为在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；

第二训练模块406，被配置为根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。

在一种可实现的方式中，第一训练模块402，还被配置为：

根据所述预训练参数确定第一训练模型，其中，所述第一训练模型的参数与所述预训练参数对应；

在一种可实现的方式中，第一训练模块402，还被配置为：

在一种可实现的方式中，参数确定模块404，还被配置为：

所述初始参数包括查询矩阵、键矩阵和值矩阵；

在一种可实现的方式中，第二训练模块406，还被配置为：

根据所述目标参数确定第二训练模型，其中，所述第二训练模型的参数与所述目标参数对应；

在一种可实现的方式中，第二训练模块406，还被配置为：

根据任务需求确定目标检测层；

在一种可实现的方式中，第二训练模块406，还被配置为：

本说明书实施例提供一种文本检测模型训练方法以及装置，其中所述文本检测模型训练装置包括：获取预训练模型的预训练参数，根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，其中，所述样本数据包括至少两个类型的文本数据；在所述初始参数中增加标签参数，得到目标参数，并获取所述样本数据的标签，其中，所述标签为所述文本数据的类型表征；根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型。通过在初始参数中增加标签参数，得到目标参数，以使可以根据目标参数、样本数据以及样本数据的标签执行第二预训练任务，得到目标模型，由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域上，降低了模型迁移难度。

与上述方法实施例相对应，本说明书还提供了类别检测装置实施例，图3示出了本说明书一个实施例提供的一种类别检测装置的结构示意图。如图3所示，该装置包括：

在一种可实现的方式中，还包括模型训练模块，模型训练模块，被配置为：

在一种可实现的方式中，模型训练模块，还被配置为：

根据任务需求确定目标检测层；

在一种可实现的方式中，模型训练模块，还被配置为：

通过在初始参数中增加标签参数，得到目标参数，以使可以根据目标参数、样本数据以及样本数据的标签执行第二预训练任务，得到目标模型，由于在参数中增加了标签参数，从而可以将文本数据以及文本数据的标签作为训练样本，即，针对不同类型的文本数据进行训练，可以以较低的成本迁移到多个新的域上，降低了模型迁移难度。

上述为本实施例的一种文本检测模型训练装置的示意性方案。需要说明的是，该文本检测模型训练装置的技术方案与上述的文本检测模型训练方法的技术方案属于同一构思，文本检测模型训练装置的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本检测模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本检测模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本检测模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本检测模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本检测模型训练方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本检测模型训练方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文字检测模型训练方法，包括：

2.根据权利要求1所述的方法，所述根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，包括：

3.根据权利要求2所述的方法，所述根据所述样本数据对所述第一训练模型进行训练，获得所述第一训练模型训练后的初始参数，包括：

4.根据权利要求1所述的方法，所述根据所述预训练参数和样本数据执行第一预训练任务，得到初始参数，包括：

5.根据权利要求1所述的方法，所述初始参数包括查询矩阵、键矩阵和值矩阵；

6.根据权利要求2所述的方法，在获得所述第一训练模型训练后的初始参数之后，还包括：

7.根据权利要求1所述的方法，所述根据所述目标参数、所述样本数据以及所述样本数据的标签执行第二预训练任务，得到目标模型，包括：

8.根据权利要求7所述的方法，所述根据所述样本数据以及所述样本数据的标签对所述第二训练模型进行训练，包括：

9.根据权利要求1所述的方法，在得到目标模型之后，还包括：

根据任务需求确定目标检测层；

10.根据权利要求9所述的方法，在得到应用模型之后，还包括：

11.一种类别检测方法，包括：

12.一种文字检测模型训练装置，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述模型训练方法或权利要求11所述类别检测方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述模型训练方法或权利要求11所述类别检测方法的步骤。