CN110782008A

CN110782008A - 深度学习模型的训练方法、预测方法和装置

Info

Publication number: CN110782008A
Application number: CN201910983661.3A
Authority: CN
Inventors: 苏萌; 王然; 刘译璟; 孙伟; 刘钰; 苏海波; 高体伟
Original assignee: Beijing Baifendian Information Science & Technology Co ltd
Current assignee: Beijing Baifendian Information Science & Technology Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-11
Anticipated expiration: 2039-10-16
Also published as: CN110782008B

Abstract

本申请实施例公开了一种深度学习模型的训练方法、预测方法和装置，针对人工特征拟合XgBoost模型，并通过XgBoost模型提取特征，将提取的特征输入改进的Transformer模型当中，并进一步进行训练，通过该Transformer模型降低人工特征输入的维度，再将该Transformer输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法，可以在不损失大量预测精度的基础上，有效地降低人工特征输入的维度，从而有效提高深度迁移学习的预测效果。

Description

深度学习模型的训练方法、预测方法和装置

技术领域

本申请涉及机器学习、人工智能、自然语言处理技术领域，尤其涉及一种深度学习模型的训练方法、预测方法和装置。

背景技术

近年来，深度学习(Deep Learning)在计算机视觉(Computer Vision，CV)、自然语言处理(Natural Language Processing，NLP)等领域均取得了长足的进展。深度学习模型的良好效果建立在大量高质量标注数据的基础之上，数据量越大，训练出的深度学习模型越容易泛化且切合实际，但在很多任务和领域中，标注数据稀少且标注成本很高，故此又提出了深度迁移学习模型。深度迁移学习主要思想是将在源域上训练好的预训练模型迁移到目标域中，通过微调的方式完成目标域的任务。

虽然深度迁移学习在小样本预测上取得了很大发展，但是在大量的实际应用中仍然不能完全替代人工特征。虽然深度学习方法能够自动提取出难以由人工规则得出的数据特征，但其过程属于黑盒模型，这就意味着对于某些可由人工规则提取出的特征，深度迁移学习模型可能无法保证能将该特征提取出来。因此又提出了将人工特征与深度迁移学习的特征结合的方式来优化模型整体性能。

但是，对于如何结合深度迁移学习模型和基于人工特征的模型，目前尚无有效的方法。

发明内容

本申请实施例提供一种深度学习模型的训练方法、预测方法和装置，可以有效结合深度迁移学习模型和基于人工特征的模型，提高预测效果。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种深度学习模型的训练方法，所述方法包括：

基于语料语句训练极端梯度提升模型xgboost模型；

基于语料语句训练基于Transformer的双向编码器表示Bert模型；

将语料语句构建的人工特征样本数据作为xgboost模型的输入，得到包含拟合特征的第一预测数据；

将所述第一预测数据作为Transformer模型的输入，对Transformer模型进行训练，所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

将语料语句作为Bert模型的输入，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入，将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出，对所述Bert模型和所述Transformer模型进行联合训练，所述Bert模型与所述 Transformer模型共同连接拼接层后输出。

第二方面，本发明实施例提供了一种深度学习模型的预测方法，所述深度学习模型包括并行的BERT模型和人工特征模型，所述人工特征模型包括 Transformer模型和XgBoost模型，所述方法包括：

获取语句语料；

将所述语句语料中的目标语句输入XgBoost模型中，以得到包括所述 XgBoost模型的拟合特征的第一样本数据，其中，所述XgBoost模型基于语句语料和语句语料构建的人工特征拟合得到；

将所述语句语料中的目标语句输入BERT模型，其中，所述BERT模型基于语料语句训练得到；

将所述第一样本数据输入Transformer模型，其中，所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

将所述BERT模型输出的特征与所述Transformer模型输出的特征拼接；

将拼接后的特征输入归一化层得到预测结果。

第三方面，本发明实施例提供了一种深度学习模型的训练装置，所述装置包括：

第一训练模块，用于基于语料语句训练极端梯度提升模型xgboost模型；

第二训练模块，用于基于语料语句训练基于Transformer的双向编码器表示Bert模型；

第一预测模块，用于将语料语句构建的人工特征样本数据作为xgboost模型的输入，得到包含拟合特征的第一预测数据；

第三训练模块，用于将所述第一预测数据作为Transformer模型的输入，对Transformer模型进行训练，所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

第四训练模块，用于将语料语句作为Bert模型的输入，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer 模型的输入，将所述语料语句对应的标签作为所述Bert模型和所述Transformer 模型的共同输出，对所述Bert模型和所述Transformer模型进行联合训练，所述Bert模型与所述Transformer模型共同连接拼接层后输出。

第四方面，本发明实施例提供了一种深度学习模型的预测装置，所述深度学习模型包括并行的BERT模型和人工特征模型，所述人工特征模型包括 Transformer模型和XgBoost模型，所述装置包括：

获取模块，用于获取语句语料；

第一输入模块，用于将所述语句语料中的目标语句输入XgBoost模型中，以得到包括所述XgBoost模型的拟合特征的第一样本数据，其中，所述XgBoost 模型基于语句语料和语句语料构建的人工特征拟合得到；

第二输入模块，用于将所述语句语料中的目标语句输入BERT模型，其中，所述BERT模型基于语料语句训练得到；

第三输入模块，用于将所述第一样本数据输入Transformer模型，其中，所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

拼接模块，用于将所述BERT模型输出的特征与所述Transformer模型输出的特征拼接；

预测模块，用于将拼接后的特征输入归一化层得到预测结果。

第五方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的深度学习模型的训练方法及第二方面所述的深度学习模型的训练方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的深度学习模型的训练方法及第二方面所述的深度学习模型的训练方法的步骤。

在本发明实施例中，针对人工特征拟合XgBoost模型，并通过XgBoost 模型提取特征，将提取的特征输入改进的Transformer模型当中，并进一步进行训练，通过该Transformer模型降低人工特征输入的维度，再将该Transformer 输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法，可以在不损失大量预测精度的基础上，有效地降低人工特征输入的维度，从而有效提高深度迁移学习的预测效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的一个实施例提供的Transformer模型结构示意图；

图2是根据本申请的一个实施例提供的深度学习模型的结构示意图；

图3是根据本申请的一个实施例提供的一种深度学习模型的训练方法的流程示意图；

图4是根据本申请的一个实施例提供的一种深度学习模型的预测方法的流程示意图；

图5是根据本申请的一个实施例提供的深度学习模型的训练装置的示意图；

图6是根据本申请的一个实施例提供的深度学习模型的预测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例中使用的各个模型，具体介绍如下：

1、极端梯度提升模型XgBoost(eXtreme Gradient Boosting)

极端梯度提升模型XgBoost，是一种大规模并行的提升树模型。XgBoost 的主要思想是将大量弱分类器(以树结构为基础)集成为一个准确率较高的强分类器。XgBoost主要利用特征维度对样本空间进行划分，通过不断地进行特征分裂来添加树，最终通过贪婪算法和调节树的最大深度的超参数得到一个包含K棵树的模型，并利用该模型对样本进行预测。根据该样本的特征在每棵树中落到相应的叶子节点，将叶子节点对应的分数相加作为该样本的预测值。

对于一般可加模型，可得样本预测值如下所示：

其中，K为树的总数，k为第k棵树，x_i为输入的样本x的第i个特征，

为预测结果。

由于XgBoost在生成新的树的时候，与之前的树并不是分割独立的，而是用新的树去拟合上棵树预测结果的残差，于是在生成t棵树后，预测分数如下所示：

其中

为第t-1棵树得到的预测值。

由于XgBoost的目标函数主要是为了建立K个回归树，使得树群的预测值尽量接近真实值并且拥有更强的泛化能力，于是其目标函数由两部分组成，第一部分是训练的损失，即用来衡量预测分数与真实分数的差距，第二部分是正则化项，即生成树结构的复杂度，目标函数公式如下式所示：

其中i表示第i个样本，n为样本总数，

为第i样本的预测误差，

是表示树的复杂度的函数，值越小，复杂度越低，泛化能力越强，树的复杂度计算表达式为：

其中，T为叶子结点个数，

为树中各个叶子节点分数的平方和。

因此XgBoost的目标函数可以表示为如下公式：

XgBoost对于目标函数的优化策略是找到使得目标函数最小化的f_t，在

处用泰勒二阶公式展开，并且对于第i个样本而言，其前t-1棵树的预测值和真实值y_i间的残差

并不影响目标函数的优化，于是将其忽略。又因为目标函数可以被认为是每个样本在第t棵树中的叶子节点得分相关函数的结果之和，所以可以得到近似的用第t棵树叶子节点分值表示的目标函数如下式所示：

其中，g_i为一阶导数，h_i为二阶导数，T为第t棵树中叶子结点的总数，I_j为在第j个叶子结点上的样本，w_j第j个叶子节点的得分值。

由此可得，优化目标函数即求其关于叶子结点分数w的一元二次方程的最优解，于是，令

可求得第j个叶子结点的分数w_j和目标函数公式为：

在确定树结构后，以上方法可以求得叶子节点分数，并通过优化目标函数给出测试样本的预测值，但在每次形成树的特征分裂的过程中，为了保证每次划分的都是最佳特征，同时在不可能遍历所有的树结构的情况下，XgBoost采用贪婪算法，遍历所有特征的特征划分点，并使用上述目标函数值作为评价指标，具体为分裂后的目标函数值比单叶子节点的目标函数的增益，同时为了限制树结构过深，在生成树时，目标函数增益需大于自定义阈值后方可对该特征进行分裂。

与其他树模型如比，XgBoost支持并行化处理，使得同层级节点间可并行，大大加快了模型的训练速度。针对过拟合问题，XgBoost采取了很多策略如添加正则化项、特征缩减(Shrinkage)和列采样(column subsampling)等来防止过拟合现象。特征缩减即在对每次迭代的叶子结点的分数乘以一个缩减权重，从而留给后面的树更多空间去优化模型，列采样则是类似于随机森林的选取部分特征建树的策略。同时，XgBoost还添加了针对稀疏数据的默认叶子结点划分算法，以处理样本的部分特征缺失问题。

2、Transformer模型

Transformer模型是一个经典的深度学习网络框架，自2017年由谷歌《attentionis all you need》一文提出以来，其在自然语言处理的任务中展示出了显著效果，受到了业界的广泛关注。不同于传统的编码-解码 (encoder-decoder)模式，Transformer结构在其中全部使用注意力(attention) 机制代替了原有的卷积神经网络/循环神经网络，Transformer结构能够克服卷积神经网络本身在处理序列化文本数据的局限性，更直接的获取全局信息，并且支持并行化计算，相较于循环神经网络固有的串行计算，Transformer结构大大提升了运算速度和效率。参见图1所示的Transformer模型结构示意图，Transformer模型作为seq2seq，由左侧的编码器(encoder)和右侧的解码器 (decoder)两部分组成。如图2所示，编码器和解码器的输入序列在经过输入嵌入(input Embedding)和位置编码(Position Encoding)后直接加和，作为模型的输入。将编码器的输出输入到解码器中并和解码器中第一部分的注意力机制结果做多头注意力机制(multi-head context-attention)运算，在解码器输出时增加线性变换和归一化层输出结果。整个Transformer结构中主要模块为多头注意力(Multi-Head attention)模块(其中包含mult-head selfattention和 multi-head context attention两种)和前向传播(feed forward)模块，每个模块后都接残差连接(Add)和归一化层(Layer Normalization)。下面将对各个部分展开详述。

位置嵌入(Position Embedding)，对于编码器和解码器两部分，模型的输入为其输入序列(如文本)经过词向量及位置向量二者的加和，词向量可通过 word2vec等模型训练得到，位置向量指的是对输入文本序列中词语的位置进行编码，其公式如下所示：

其中奇数位置用余弦函数，偶数位置用正弦函数，最终可得一个n维的位置向量。

注意力机制(Attention)，在自然语言处理中，注意力机制的本质可以理解为一个序列(query)到键值(key-value)的映射，其步骤分为三步：a)序列和每个键值进行相似度计算得到权重e_ij；b)使用softmax对权重进行归一化得到α_ij；c)将权重和对应的键值进行加权求和的到注意力值。其对应的公式如下所示：

e_ij＝a(s_i-1，h_j)

其中，key＝value＝h_j，query＝s_i-1。

点积注意力机制(Scaled dot-product attention)，在Transformer中，多头注意力模块中使用的是点积注意力机制的计算方法，其与上述传统注意力计算方法不同之处在于其在计算序列和每个键值的相似度时使用点积方法，点积注意力机制的计算公式如下所示：

其中，Q为query，K为key，V为value。

自注意力机制(Self-attention)，是指计算自身和自身间的注意力权重，即，Q＝K＝V。在Transformer结构中，编码器的注意力模块中使用多头注意力机制，Q、K、V均为输入，解码器的第一部分也使用多头注意力机制，Q、K、 V均为输入，解码器的(环境注意力context-attention)部分，K为解码器第一部分自注意力的结果，Q＝V为编码器的自注意力的输出。

多头注意力机制(Multi-head attention)，指在做注意力计算前，先将V、 K、Q经过一个线性映射然后再输入维度dk、dq、dv上切分成h份，然后再对每一份进行点积注意力机制运算，之后将每部分结果合并起来，经过线性映射得到最终的输出。

前馈神经网络(Feed-forward network)，是一个简单的全连接神经网络，对于注意力层输出的结果先进行一次线性变换，再通过一次修正线性单元 (Rectified LinearUnit，ReLU)，最后再进行一次线性变换。

残差连接(Residual connection)，指的是对于每个输入向量x经过网络结构后的得到的输出f(x)，在输出向量f(x)中加入输入向量x，即输出结果为f(x)+x，这样使得在对x求偏导时，会有一项1的常数项，以此避免梯度消失。

层归一化(Layer Normalization)，是将数据转化为均值为0，方差为1的数据，以此减少数据的偏差，规避训练过程中梯度消失及梯度爆炸的问题。与一般的批归一化(batch normalization)不同的是，层归一化是对每一层输出的每个样本上都进行归一化。

对于一般的Transformer来说，其输入维度和输出维度是一致的。在本实施例中是通过Transformer进行降维，因此对上述Transformer模型进行了改进。具体地，在每一个Transformer的输入部分增加了卷积层，对输入进行卷积操作，通过残差连接将卷积操作后所得到的输出和经过自注意力模块后所得到的输出进行相加，再进行平均池化，从而实现降低维度的效果。

3、基于Transformer的双向编码器表示模型BERT(Bidirectional EncoderRepresentations from Transformers)

BERT的主要迁移思想是将传统的下游具体NLP任务的训练转移到预训练词向量中，在获得试用BERT的词向量之后，只需要在词向量上加简单的多层感知器(Multi-LayerPerception，MLP)或线性分类器即可。其主要结构为上述的Transformer模型，使用双向Transformer做编码器来结合上下文语义信息，进一步增加了词向量模型的泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。

对比其他语言模型BERT做到了真正意义上的双向编码，BERT采用遮蔽语言模型(masked language model)策略，随机遮蔽语料中15％的标记(token)，使得被预测的词被特殊符号代替，从而避免所预测的词已经在序列中出现的问题。此外BERT是一个句子级别的语言模型，可以直接获得整个句子的唯一向量表示，BERT在每个输入前加一个特殊记号[CLS]，然后用Transformer对[CLS] 做深度编码，最后将[CLS]的最高隐层作为句子级别的表示直接连接一个归一化连接层，通过它可以学到整个输入的上层特征。

在句子级别的连续性预测任务时，BERT需要进行句子级别的负采样，即先给定一个句子，一下句为正例，然后随机采样一句负例，进行句子级别的二分类，判断句子是当前句的下一句还是噪声。

基于以上模型，在本实施例中提出了一种结合深度迁移学习BERT、人工特征模型XgBoost和Transformer的深度学习模型模型，参见图2所示的深度学习模型的结构示意图，包括左侧的Bert模型、右侧的XgBoost模型和改进后的Transformer模型，左右两侧模型并行。在输入端输入语句数据时，语句数据进入左侧的BERT模型，语句数据经过人工特征构建后进入右侧的XgBoost 模型。

XgBoost模型连接在改进后的Transformer模型之前，在BERT模型和改进后的Transformer模型之后共同连接有拼接层，拼接层之后连接有归一化层 (softmax层)。如图2所示在改进后的Transformer模型中，包括依次连接的卷积层(convolution)、多头注意力模块(Multi-head attention)、前向传播模块(Feed forward)和平均池化层(Averagepooling)。在多头注意力模块和前向传播模块中分别包括残差连接层(ADD)和归一化层(Norm)。通过在多头注意力模块前增加一个卷积模块和在前向传播模块后增加一个平均池化模块，降低所提取的人工特征的维度。

图3为本申请的一个实施例提供的一种深度学习模型的训练方法的流程示意图，如图3所示，包括以下步骤：

S302，基于语料语句训练极端梯度提升模型xgboost模型。

参见图2中所示的Xgboost模型，基于语料语句对其进行训练，该模型的主要目的是通过其中的决策树，自动地提取出非线性效应和交叉效应。通过控制树的最大深度和训练轮次，可得到一个包含K棵树的XgBoost模型。

S304，基于语料语句训练基于Transformer的双向编码器表示Bert模型。

如图2所示的Bert模型，基于语料语句对其进行训练，通过迁移学习的方式提高训练的效率。

S306，将语料语句构建的人工特征样本数据作为Xgboost模型的输入，得到包含拟合特征的第一预测数据。

将语料语句构建的人工特征样本数据输入到训练好的上述XgBoost模型中，根据其落到K棵树的叶子节点的分数得到一个K维的特征向量，即包含拟合特征的第一预测数据。

S308，将第一预测数据作为Transformer模型的输入，对Transformer模型进行训练。Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层。

对应于图2中Transformer模型的具体结构，Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层。在图3中所示的改进后的Transformer模型，仅使用如图1所示的Transformer结构中左侧的 encoding部分，在该encoding部分之前增加卷积层，在其之后增加平均池化层。

对应于上述Transformer模型的结构，其训练过程如下：将第一预测数据输入卷积层进行卷积操作；将卷积操作结果输入多头注意力层，并将卷积操作结果与多头注意力层的输出相加且归一化，得到第一输出；将第一输出输入前向传播层，并将第一输出与前向传播层的输出相加且归一化，得到第二输出；将第二输出输入平均池化层，得到第三输出；基于第三输出和第一预测数据降维得到的特征向量数据对Transformer模型进行训练，得到训练后的Transformer 模型。

S310，将语料语句作为Bert模型的输入，将语料语句构建的人工特征样本数据经xgboost模型的预测数据作为Transformer模型的输入，将语料语句对应的标签作为Bert模型和Transformer模型的共同输出，对Bert模型和Transformer 模型进行联合训练，Bert模型与Transformer模型共同连接拼接层后输出。

具体地，可以将语料语句输入Bert模型得到第一预测结果，将语料语句构建的人工特征样本数据经xgboost模型的预测数据输入Transformer模型得到第二预测结果；将第一预测结果和第二预测结果进行拼接；将拼接后的预测结果输入归一化层，得到模型预测结果；基于模型预测结果与语料语句对应的标签对Transformer模型和深度迁移学习模型进行联合训练，得到上述深度学习模型。

如图2所示，将BERT预训练模型的最后一层[CLS]输出与经过XgBoost 模型和Transformer模型优化降维后的人工特征拼接在一起，最后接softmax层并对BERT和Transformer进行联合训练。

本实施例的深度学习模型可以基于深度迁移学习模型BERT和人工特征模型XgBoost联合训练得到。首先通过基于人工特征拟合XgBoost模型，将模型所生成的特征接入全连接层，从而和深度迁移学习模型进行联合训练。由于 XgBoost拟合模型擅长捕捉人工特征中的交叉效应和非线性效应，同时又进行了联合训练，因此可以最大化的利用BERT和XgBoost所提取出的特征。然而由于XgBoost倾向于输出大量的稀疏的特征，上述方式会导致严重的过拟合，从而使得最终的预测结果不理想。

本实施提供的方法，针对人工特征拟合XgBoost模型，并通过XgBoost 模型提取特征，将提取的特征输入改进的Transformer模型当中，并进一步进行训练，通过该Transformer模型降低人工特征输入的维度，再将该Transformer 输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法，可以在不损失大量预测精度的基础上，有效地降低人工特征输入的维度，从而有效提高深度迁移学习的预测效果。

基于图2所示的深度学习模型，本实施例提供了一种深度学习模型的预测方法的流程示意图，该深度学习模型包括并行的BERT模型和人工特征模型，人工特征模型包括Transformer模型和XgBoost模型，如图4所示，包括以下步骤：

S402，获取语句语料。

S404，将语句语料中的目标语句输入XgBoost模型中，以得到包括XgBoost 模型的拟合特征的第一样本数据，其中，XgBoost模型基于语句语料和语句语料构建的人工特征拟合得到。

S406，将语句语料中的目标语句输入BERT模型，其中，BERT模型基于语料语句训练得到。

S408，将第一样本数据输入Transformer模型。

其中，Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层。多头注意力模块包括多头注意力层、残差连接层和归一化层；前向传播模块包括前向传播层、残差连接层和归一化层。具体地， Transformer模型进行人工特征降维的具体过程如下：将第一样本数据输入卷积层进行卷积操作；将卷积操作结果输入多头注意力层，并将卷积操作结果与多头注意力层的输出相加且归一化，得到第一输出；将第一输出输入前向传播层，并将第一输出与前向传播层的输出相加且归一化，得到第二输出；将第二输出输入平均池化层，得到输出特征。

S410，将BERT模型输出的特征与Transformer模型输出的特征拼接。

例如BERT输出的是50维的矩阵向量，Transformer输出的是100维的矩阵向量，拼接后得到150维的矩阵向量。

S412，将拼接后的特征输入归一化层得到预测结果。

本申请实施例中，可以通过根据基于Bert和改进的Transformer模型联合训练得到的深度学习模型进行结果预测，通过改进的Transformer模型可以有效降低人工特征输入的维度，通过Bert和改进的Transformer模型联合训练可以优化任务整体性能，从而提高模型的效率和精确性。

图5为本申请一个实施例提供的一种深度学习模型的训练装置的示意图，如图5所示，该装置包括：

第一训练模块51，用于基于语料语句训练极端梯度提升模型xgboost模型；

第二训练模块52，用于基于语料语句训练基于Transformer的双向编码器表示Bert模型；

第一预测模块53，用于将语料语句构建的人工特征样本数据作为xgboost 模型的输入，得到包含拟合特征的第一预测数据；

第三训练模块54，用于将第一预测数据作为Transformer模型的输入，对Transformer模型进行训练，Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

第四训练模块55，用于将语料语句作为Bert模型的输入，将语料语句构建的人工特征样本数据经xgboost模型的预测数据作为Transformer模型的输入，将语料语句对应的标签作为Bert模型和Transformer模型的共同输出，对 Bert模型和Transformer模型进行联合训练，Bert模型与Transformer模型共同连接拼接层后输出。

可选地，作为一个实施例，xgboost模型连接在Transformer模型之前，xgboost模型之前连接人工特征输入层，拼接层之后连接归一化层。

可选地，作为一个实施例，多头注意力模块包括多头注意力层、残差连接层和归一化层；前向传播模块包括前向传播层、残差连接层和归一化层。

可选地，作为一个实施例，所述第三训练模块具体用于：将第一预测数据输入卷积层进行卷积操作；将卷积操作结果输入多头注意力层，并将卷积操作结果与多头注意力层的输出相加且归一化，得到第一输出；将第一输出输入前向传播层，并将第一输出与前向传播层的输出相加且归一化，得到第二输出；将第二输出输入平均池化层，得到第三输出；基于第三输出和第一预测数据降维得到的特征向量数据对Transformer模型进行训练，得到训练后的Transformer 模型。

可选地，作为一个实施例，所述第四训练模块具体用于：将语料语句输入 Bert模型得到第一预测结果，将语料语句构建的人工特征样本数据经xgboost 模型的预测数据输入Transformer模型得到第二预测结果；将第一预测结果和第二预测结果进行拼接；将拼接后的预测结果输入归一化层，得到模型预测结果；基于模型预测结果与语料语句对应的标签对Transformer模型和深度迁移学习模型进行联合训练，得到深度学习模型。

图6为本申请一个实施例提供的一种深度学习模型的预测装置的示意图，如图6所示，深度学习模型包括并行的BERT模型和人工特征模型，人工特征模型包括Transformer模型和XgBoost模型，该装置包括：

获取模块61，用于获取语句语料；

第一输入模块62，用于将语句语料中的目标语句输入XgBoost模型中，以得到包括XgBoost模型的拟合特征的第一样本数据，其中，XgBoost模型基于语句语料和语句语料构建的人工特征拟合得到；

第二输入模块63，用于将语句语料中的目标语句输入BERT模型，其中， BERT模型基于语料语句训练得到；

第三输入模块64，用于将第一样本数据输入Transformer模型，其中，Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层；

拼接模块65，用于将BERT模型输出的特征与Transformer模型输出的特征拼接；

预测模块66，用于将拼接后的特征输入归一化层得到预测结果。

可选地，作为一个实施例，所述多头注意力模块包括多头注意力层、残差连接层和归一化层；前向传播模块包括前向传播层、残差连接层和归一化层。

可选地，作为一个实施例，所述第三输入模块具体用于：将第一样本数据输入卷积层进行卷积操作；将卷积操作结果输入多头注意力层，并将卷积操作结果与多头注意力层的输出相加且归一化，得到第一输出；将第一输出输入前向传播层，并将第一输出与前向传播层的输出相加且归一化，得到第二输出；将第二输出输入平均池化层，得到输出特征。

本申请实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述深度学习模型的训练方法和深度学习模型的预测方法实施例的各个步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述深度学习模型的训练方法和深度学习模型的预测方法实施例的各个步骤。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种深度学习模型的训练方法，其特征在于，所述方法包括：

基于语料语句训练极端梯度提升模型xgboost模型；

基于语料语句训练基于Transformer的双向编码器表示Bert模型；

将语料语句作为Bert模型的输入，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入，将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出，对所述Bert模型和所述Transformer模型进行联合训练，所述Bert模型与所述Transformer模型共同连接拼接层后输出。

2.如权利要求1所述的方法，其特征在于，所述xgboost模型连接在所述Transformer模型之前，所述xgboost模型之前连接人工特征输入层，所述拼接层之后连接归一化层。

3.如权利要求2所述的方法，其特征在于，所述多头注意力模块包括多头注意力层、残差连接层和归一化层；所述前向传播模块包括前向传播层、残差连接层和归一化层。

4.如权利要求3所述的方法，其特征在于，所述将所述第一预测数据作为Transformer模型的输入，对Transformer模型进行训练，包括：

将所述第一预测数据输入所述卷积层进行卷积操作；

将卷积操作结果输入所述多头注意力层，并将所述卷积操作结果与所述多头注意力层的输出相加且归一化，得到第一输出；

将所述第一输出输入所述前向传播层，并将所述第一输出与所述前向传播层的输出相加且归一化，得到第二输出；

将所述第二输出输入所述平均池化层，得到第三输出；

基于所述第三输出和所述第一预测数据降维得到的特征向量数据对所述Transformer模型进行训练，得到训练后的所述Transformer模型。

5.如权利要求3所述的方法，其特征在于，所述将语料语句作为Bert模型的输入，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入，将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出，对所述Bert模型和所述Transformer模型进行联合训练，包括：

将语料语句输入所述Bert模型得到第一预测结果，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据输入所述Transformer模型得到第二预测结果；

将所述第一预测结果和所述第二预测结果进行拼接；

将拼接后的预测结果输入归一化层，得到模型预测结果；

基于所述模型预测结果与所述语料语句对应的标签对所述Transformer模型和所述深度迁移学习模型进行联合训练，得到所述深度学习模型。

6.一种深度学习模型的预测方法，其特征在于，所述深度学习模型包括并行的BERT模型和人工特征模型，所述人工特征模型包括Transformer模型和XgBoost模型，所述方法包括：

获取语句语料；

将所述语句语料中的目标语句输入XgBoost模型中，以得到包括所述XgBoost模型的拟合特征的第一样本数据，其中，所述XgBoost模型基于语句语料和语句语料构建的人工特征拟合得到；

将拼接后的特征输入归一化层得到预测结果。

7.如权利要求6所述的方法，其特征在于，所述多头注意力模块包括多头注意力层、残差连接层和归一化层；所述前向传播模块包括前向传播层、残差连接层和归一化层。

8.如权利要求7所述的方法，其特征在于，所述将所述第一样本数据输入Transformer模型，包括：

将所述第一样本数据输入所述卷积层进行卷积操作；

将所述第二输出输入所述平均池化层，得到输出特征。

9.一种深度学习模型的训练装置，其特征在于，所述装置包括：

第四训练模块，用于将语料语句作为Bert模型的输入，将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入，将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出，对所述Bert模型和所述Transformer模型进行联合训练，所述Bert模型与所述Transformer模型共同连接拼接层后输出。

10.一种深度学习模型的预测装置，其特征在于，所述深度学习模型包括并行的BERT模型和人工特征模型，所述人工特征模型包括Transformer模型和XgBoost模型，所述装置包括：

获取模块，用于获取语句语料；

第一输入模块，用于将所述语句语料中的目标语句输入XgBoost模型中，以得到包括所述XgBoost模型的拟合特征的第一样本数据，其中，所述XgBoost模型基于语句语料和语句语料构建的人工特征拟合得到；