CN114282643A

CN114282643A - 数据处理方法及装置、计算设备

Info

Publication number: CN114282643A
Application number: CN202011065869.6A
Authority: CN
Inventors: 王盛南; 杨程; 李越川; 杨超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-10-01
Filing date: 2020-10-01
Publication date: 2022-04-05

Abstract

本申请实施例提供一种数据处理方法及装置、计算设备，该数据处理方法包括：确定模型参数已知的第一网络模块；获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；根据所述第一网络模块以及所述待训练模块，构建第二网络模块；基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。本申请实施例提高了模型的训练效率。

Description

数据处理方法及装置、计算设备

技术领域

本申请涉及计算设备技术领域，尤其涉及一种数据处理方法及装置、计算设备。

背景技术

近年来，自然语言处理任务的应用越来越广泛，在自然语言处理任务中，一般使用NLP(Natural Language Processing)神经网络模型来执行处理任务。通常，为了确保神经网络模型对自然语言的处理精度，一般采用深度神经网络模型。BERT(BidirectionalEncoder Representations from Transformers，双向编码器的语言表征模型)是一种较为常见的用于自然语言处理的深度神经网络模型，可以应用于词语预测、语句关联预测、自动问答、内容推荐等应用场景中。

通常，BERT模型可以包括输入层、向量表示层、编码层以及分类层，该模型关键在于使用了Transformer(转换)模型的Encoder(编码器)。BERT模型的模型参数中可以包括编码层中各个Encoder的参数。为了获取模型参数，通常可以采用多个训练数据，多次训练获得已构建好的BERT模型的模型参数。

由以上描述可知，BERT等深度神经网络模型中编码层通常由多个Encoder模块构成，在训练时，需要对所有模块均进行表征计算，以获得准确的模型参数，计算量非常大，需要消耗大量时间，训练效率较低。

发明内容

有鉴于此，本申请实施例提供一种，用以解决现有技术中的技术问题。

第一方面，本申请实施例提供一种数据处理方法，包括：

确定模型参数已知的第一网络模块；

获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；

根据所述第一网络模块以及所述待训练模块，构建第二网络模块；

基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

第二方面，本申请实施例提供一种数据处理设备，包括：

模型确定模块，用于确定模型参数已知的第一网络模块；

模型新增模块，用于获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；

新增构建模块，用于根据所述第一网络模块以及所述待训练模块，构建第二网络模块；

参数训练模块，用于基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

第三方面，本申请实施例提供一种计算设备，包括：存储组件与处理组件；所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行本申请实施例提供的任一种数据处理方法。

第四方面，本申请实施例提供一种存储介质，包括：计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时以执行本申请实施例提供的任一种的数据处理方法。

本申请实施例，确定模型参数已知的第一网络模块之后，可以获取为第一网络模块新增加的待训练模块，该待训练模块的模型参数未知。之后，可以根据第一网络模块以及新增加的待训练模块，构建第二网络模块。此时，第二网络模块中的第一网络模块的模型参数已知，待训练模块的模型参数未知。基于多个训练数据，可以训练获得该第二网络模块中待训练模块的模型参数。本实施例中，在模型参数已知的第一网络模块的基础上，增加进行参数训练的待训练模块，并仅针对该待训练模块的模型参数进行训练，以减少模型训练的参数量，降低训练的复杂度，提高训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的一个实施例的流程图；

图2为本申请实施例提供的一种数据处理方法的又一个实施例的流程图；

图3为本申请实施例提供的一种数据处理方法的又一个实施例的流程图；

图4为本申请实施例提供的一种数据处理方法的又一个实施例的流程图；

图5为本申请实施例提供的一种数据处理方法的一个示例图；

图6为本申请实施例提供的一种数据处理方法的又一个示例图；

图7为本申请实施例提供的一种数据处理装置的一个实施例的结构示意图；

图8为本申请实施例提供的一种计算设备的一个实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于神经网络模型优化场景中，通过将神经网络中的模型参数分批次训练获得，以在每次仅针对神经网络模型中新增加的模块进行针对性训练，提高训练效率。

现有技术中，神经网络模型的模型参数需要训练获得，神经网络模型例如可以为BERT等深度神经网络模型，由于神经网络模型的模型结构较为复杂，对深度神经网络模型而言，通过训练以获得模型参数较为复杂。以BERT模型为例，BERT模型的编码层可以由12个Encoder模块或者24个Encoder模块构成，任一个Encoder依据其所在的连接顺序构成所述编码层的一个子编码层。组装获得的编码层分别可以称为BERT_BASE和BERT_LARGE，其中，BERT_BASE包括12个Encoder模块，BERT_LARGE包括24个Encoder模块。BERT模型的编码层中可以包含很多神经元，以12个Encoder模块的BERT_BASE为例，其中，一个Encoder模块包括768个神经单元和12个自注意头，其对应的参数数量为110M。以24个Encoder模块的BERT_LARGE为例，其中，一个Encoder模块包括1024个神经单元和16个自注意头，其对应的参数数量为340M。由BERT模型的示例可知，神经网络模型的网络结构非常复杂，在训练过程中需要训练的参数数量非常多，导致训练过程非常复杂，训练效率较低。

本申请实施例中，针对神经网络模型的模型架构，可以将模型中结构相似或相同的网络模块进行分层。以BERT模型的解码层为例，无论是12个Encoder模块还是24个Encoder模块，可以划分为多个训练模块，以在原有网络以及网络参数的基础上，不断对新增加的训练模块进行参数训练，以获得新增加的训练模块的模型参数，从而减少每次训练的参数数量，提高神经网络模型的训练效率。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种数据处理方法的一个实施例的流程图，所述方法可以包括以下几个步骤：

101：确定模型参数已知的第一网络模块。

本申请实施例所提供的数据处理方法可以应用于计算设备中。在一些实施例中，计算设备例如可以包括：个人计算机、超级移动个人计算机、笔记本等具有计算处理功能的电子设备。此外，计算设备例如还可以包括：服务器或者云服务器等服务器，本申请实施例对计算设备的具体类型不作过多限定。

可选地，第一网络模块可以为目标网络模型中已训练获得模型参数的部分网络结构。其中，目标网络模型可以为深度神经网络模型，具体可以为应用于自然语言处理领域的机器学习模型，例如BERT模型。目标网络模型中可以包括多层网络结构，例如可以包括：向量表示层、编码层以及分类层，其中分类层中一般可以包括解码器以及分类器。分类器可以对编码层输出的数据内容进行解码以及分类，以获得目标网络模型对应的网络计算结果。

第一网络模块的模型参数可以训练获得。第一网络模块中可以包括原有的基础训练模块以及新增加的已训练结束的。

102：获取为所述第一网络模块新增加的待训练模块。

其中，所述待训练模块的模型参数未知。

103：根据所述第一网络模块以及所述待训练模块，构建第二网络模块。

可选地，待训练模块可以增加到第一网络模块中，形成第二网络模块。待训练模块的模型参数需要训练获得。第二网络模块中包含第一网络模块中原有的网络模块以及新增加的待训练模块。

104：基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

可选地，第二网络模块中待训练模块的模型参数可以基于多个训练数据训练获得，在训练过程中第一网络模块中原有的网络模块的模型参数已知，并不参与参数训练。

本申请实施例中，确定模型参数已知的第一网络模块之后，可以获取为第一网络模块新增加的待训练模块，该待训练模块的模型参数未知。之后，可以根据第一网络模块以及新增加的待训练模块，构建第二网络模块。此时，第二网络模块中的第一网络模块的模型参数已知，待训练模块的模型参数未知。基于多个训练数据，可以训练获得该第二网络模块中待训练模块的模型参数。本实施例中，在模型参数已知的第一网络模块的基础上，增加进行参数训练的待训练模块，并仅针对该待训练模块的模型参数进行训练，以减少模型训练的参数量，降低训练的复杂度，提高训练效率。

为了对整个神经网络模型进行训练，可以判断新获得的第二网络模块是否满足网络构成条件，以在不满足网络构成条件时，通过多次增加新的待训练模块并进行针对性单独性训练，以提高训练效率。

参考图2，与图1所示实施例的不同之处在于，在步骤104之后，该方法还可以包括：

105：判断所述第二网络模块是否满足模型构成条件。

可选地，判断第二网络模块是否满足模型构成条件可以包括：获取第二网络模块中编码层的编码器数量，判断所述编码器数量是否与预设编码器数量阈值相同。以BERT模型为例，编码器数量阈值例如可以设置为12或24。获取第二网络模块中编码器的数量，当获得的编码器的数量为12或者24时，说明此时第二网络模块满足模型的构成条件。

106：如果是，则确定所述第二网络模块为目标网络模型。

当第二网络模块满足模型构成条件时，可以将第二网络模块作为目标网络模型，此时可以第二网络模块中的第一网络模块以及待训练模块的模型参数均为已知参数，目标网络模型的目标模型参数即已知。

目标网络模型的目标模型参数是基于对多个待训练模块分多次训练获得，也即目标网络模型的模型参数可能不是同一批次训练获得，为了使得目标网络模型中的目标模型参数的使用结果更佳。在一些实施例中，可以将目标网络模型中的目标模型参数进行微调，以获得更为准确的目标网络模型的目标网络参数。可选地，将目标网络模型中的目标模型参数进行微调时，可以依据参数调整策略进行目标模型参数的调整，以获得目标网络模型最终的目标模型参数。

107：如果否，则将所述第二网络模块作为新的第一网络模块，并返回至102步骤继续执行。

将第二网络模块作为新的第一网络模块，并继续执行为该新的第一网络模块获取新增加的待训练模块的步骤。

本申请实施例中，在第一网络模块的基础上增加新的训练模块的步骤可以执行多次，以不断对第一网络模块的网络模型进行调整，增加新的网络模块。在实际应用中，可以对第二网络模块进行模型构成条件的判断。

在图2所示实施例的步骤106：如果是，则确定所述第二网络模块为目标网络模型之后，该方法还可以包括：

确定第一网络模块的模型参数以及待训练模块的模型参数为所述目标网络模型的目标模型参数。

目标模型参数中包括第一网络模块原有的模型参数以及待训练模块的模型参数。在训练获得待训练模块的模型参数之后，由于第一网络模块的模型参数已知，此时可以直接确定第一网络模块原有的网络参数。

在实际应用中，目标网络模型具体可以为深度神经网络模型，例如可以为BERT模型、ALBERT(A Lit Bidirectional Encoder Representations from Transformers，低耗双向编码器的语言表征)模型或者Struct BERT(结构性双向编码器的语言表征)模型等。在目标网络模型的几种较为常见的应用场景可以包括：

方式一：

获取目标网络模型的目标模型参数；

检测第二用户输入的待处理语句；

将所述待处理语句输入所述目标模型参数对应的所述目标网络模型，计算获得所述待处理语句对应的目标信息；

为所述第二用户输出所述目标信息。

可选地，待处理语句可以为第二用户输入的需要通过目标模型参数进行处理的语句。待处理语句的语句类型可以为多个语句类型中的一种，语句类型可以基于目标网络模型的功能而设置。例如，目标网络模型的主要功能为语句推断时，此时待处理语句可以属于推断类型；目标网络模型的主要功能为语音问答时，此时待处理语句可以属于问答类型；目标网络模型的主要功能翻译功能时，此时待处理语句可以属于翻译类型；目标网络模型的主要功能为语句分类等功能时，待处理语句可以属于待分类类型。目标网络模型对待处理语句进行计算处理，以获得该待处理信息对应的目标信息也基于该待处理语句的语句类型而确定。例如，待处理语句为推断类型时，该待处理语句对应的目标信息可以为目标推断词语或者短句；待处理语句为问答类型时，该待处理语句对应的目标信息可以为目标回答语句；待处理语句为翻译类型时，待处理语句对应的目标信息可以为将待处理语句由源语言翻译为目标语言之后获得的文本信息。

在实际使用过程中，第二用户可以使用第二用户端输入待处理语句。第二用户端检测到第二用户输入的待处理语句之后，可以将待处理语句发送至配置有本申请实施例提供的数据处理方法的计算设备。此时该计算设备即可以确认检测到第二用户输入的待处理语句。将待处理语句输入目标模型参数对应的目标网络模型，可以计算获得待处理信息对应的目标信息。该计算设备为第二用户输出目标信息具体可以包括：将目标信息发送至第二用户端。第二用户端接收到目标信息之后即可以输出该目标信息。

可选地，计算设备在发送目标信息至第二用户端时，可以将与目标信息相对应的短消息、长链接信息或者网页链接等方式发送至第二用户端。

方式二：

获取目标网络模型的目标模型参数；

确定第三用户的用户信息；

将所述用户信息输入所述目标模型参数对应的所述目标网络模型，计算获得与所述第三用户相匹配的第一推荐内容；

为所述第三用户输出所述第一推荐内容。

目标网络模型还可以基于用户的用户信息进行相应的推荐内容获取，以进行内容推荐。用户信息例如可以包括：用户的身份信息、对商品的浏览信息、历史的点击信息、历史的购买信息等。用户的身份信息例如可以包括用户的年龄、身份、职业和/或爱好等。

在一种可能的设计中，计算设备可以基于第三用户的身份信息查找用户信息。用户的身份信息可以包括身份标识号、手机号、账户信息、员工编号等信息中的至少一种。

可选地，第一推荐内容可以为第三用户的用户信息相匹配的推荐内容，例如推荐商品对象、书籍、多媒体内容、广告对象等。

在又一种可能的设计中，计算设备可以基于第三用户发起的推荐请求，获得第三用户的用户信息，并将该用户信息输入目标模型参数对应的目标网络模型中，计算获得与第三用户相匹配的第一推荐内容。

在实际应用中，计算设备为第三用户输出第一推荐内容具体可以包括：将第一推荐内容发送至第三用户的第三用户端，以使得第三用户端为第三用户输出该第一推荐内容。

可选地，计算设备在发送第一推荐内容至第三用户端时，可以将第一推荐内容以短消息、长链接信息或者网页链接等方式发送至第三用户端。

方式三：

获取目标网络模型的目标模型参数；

确定第四用户输入的待处理图像；

将所述待处理图像输入所述目标模型参数对应的所述目标网络模型，计算获得与所述待处理图像相匹配的第二推荐内容；

为所述第四用户输出所述第二推荐内容。

第四用户还可以输入待处理图像，并采用目标网络模型对待处理图像进行特征提取，并基于该待处理图像获取相匹配的产品对象、商品对象、多媒体信息或者广告信息构成的第二推荐内容，实现基于图像的内容推荐。

在一些实施例中，第四用户端可以获取第四用户在图像库中存储历史图像，以获得待处理图像。第四用户端还可以检测第四用户发起的摄像请求，拍摄实时照片，以获得待处理图像。

在又一些实施例中，待处理图像可以从第四用户提供的商品信息、视频或者广告素材中提取获得，以对第四用户提供的待处理图像进行后续的相关内容推荐。

可选地，计算设备在发送第二推荐内容至第四用户端时，可以将与第二推荐内容相对应的短消息、长链接信息或者网页链接等方式发送至第四用户端。第四用户端可以获取第二推荐内容对应的短消息、长链接信息或者网页链接等信息，并通过消息输出、信息输出或者网页展示等方式为第四用户输出第二推荐内容。

参考图2，步骤105：判断所述第二网络模块是否满足模型构成条件具体可以包括：

判断所述第二网络模块的编码层中的编码器的数量是否达到预设网络层数。

第二网络模块中可以包括向量表示层、编码层以及分类层。第二网络模块中的编码层可以包括多个编码器，当编码器的数量达到一定的网络层数时说明编码层的网络深度已经能够满足使用需求，此时可以停止对模型增加新的待训练模块，以获得最终的目标网络模型。

本申请实施例中，以编码层中编码器的数量为模型终止训练的依据，以在达到预设的网络层数时，即停止为编码层中增加新的编码器，以快速完成网络模型的训练，提高训练效率。

在一种可能的设计中，目标网络模型可以划分为向量表示层、编码层以及分类层。其中，分类层中可以包括解码器以及分类器。

作为一个实施例，根据所述第一网络模块以及所述待训练模块，构建第二网络模块可以包括：

确定所述第一网络模块中的向量表示层、第一编码层以及分类层；其中，所述向量表示层的向量参数、所述第一编码器的第一编码参数以及所述分类层的分类参数已知；

将所述待训练模块增加到所述第一编码层，获得第二编码层；

确定所述向量表示层、第二编码层以及所述分类层构成的所述第二网络模块；

所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数可以包括：

基于多个训练数据，训练所述第二网络模块的编码层中所述待训练模块的模型参数。

本申请实施例中，待训练模块可以为编码层中的部分模块，可以将待训练模块增加到第一网络模块的编码层中，以获得第二网络模块，通过将待训练模块针对性的加入到编码层中，仅对编码层中新增加的待训练模块进行参数训练，而第一网络模块中原有的向量表示层、原有第一编码层以及分类层的模型参数已知，不参与训练，通过减少参与训练的模块，可以快速完成第二网络模型的训练，提高训练效率。同时本申请实施例中，将待训练模块加入到第一网络模块的编码层，对编码层深度较高的神经网络模型的训练效率的提升有显著效果，可以提高网络模型的训练效率。

一些目标网络模型，特别是BERT模型中，编码层由多个串联连接的编码器构成。较为常见的编码器例如可以为Transform模型中的Encoder(编码器)。

为了减少训练过程中的计算复杂度，可以按照目标网络模型的编码层中设置的多个编码器的总量进行编码器的数量步长进行设置，或者进行训练阶段的划分。例如，以12层的编码器构成的编码层而言，可以设置步长为4，每次训练4个编码器的模型参数，并确定训练结束的编码器为模型参数已知的编码器。或者进行训练阶段的预划分时，可以采用设置多个训练阶段，针对设置每个训练阶段的编码器数量，同样以12层的编码器构成的编码层而言，可以设计3个训练阶段，第一阶段训练5个编码器，第二阶段训练5个编码器，第三阶段训练2个编码器。

因此，作为一个实施例，第一编码层可以包括：至少一个第一编码器；所述至少一个第一编码器的第一编码参数已知；

所述待训练模块包括：至少一个第二编码器；其中，所述至少一个第二编码器的第二编码参数未知；

所述将所述待训练模块增加到所述第一编码层，获得第二编码层包括：

将所述至少一个第二编码器设置于所述至少一个第一编码器之后，获得所述至少一个第一编码器以及位于所述至少一个第一编码器之后的至少一个第二编码器构成的所述第二编码层。

第一网络模块可以包括：向量表示层、第一编码层以及分类层。其中，向量表示层的向量参数、第一编码层的第一编码参数以及分类层的分类参数已知。

第二网络模可以包括：向量表示层、第二编码器以及分类层。其中，第二编码层由原有第一编码层中至少一个第一编码器以及新增加的至少一个第二编码器构成。

至少一个编码器按照其各自对应的编码子层数串联形成编码层。

所述步骤103：根据所述第一网络模块以及所述待训练模块，构建第二网络模块具体可以包括：

确定所述第一网络模块中所述向量表示层、位于所述向量表示层之后的至少一个第一编码器以及位于所述至少一个第一编码器之后的至少一个第二编码器以及位于所述至少一个第二编码器之后的分类层构成的所述第二网络模块。

其中，至少一个第二编码器可以串联于至少一个第一编码器之后。

在至少一个第二编码器均为相同的编码器时，可以由于编码器相同，且参数未知，至少一个第二编码器随机串联即可。

在确定至少一个第一编码器以及位于该至少一个第一编码器之后的至少一个第二编码器之后，可以记录每个编码器的串联顺序，以便于管理各个编码器的模型参数，以避免出现参数匹配误差。

作为又一个实施例，在将所述至少一个第二编码器设置于所述至少一个第一编码器之后，获得所述至少一个第一编码器以及位于所述至少一个第一编码器之后的至少一个第二编码器构成的所述第二编码层之后，该方法还可以包括：

基于多个训练数据，训练获得所述第二网络模块的编码层中所述至少一个第二编码器的第二编码参数。

在待训练模块为至少一个第二编码器时，在训练过程中近针对至少一个第二编码器的模型参数进行训练，以降低训练复杂度，提高训练效率。

作为又一个实施例，所述获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知可以包括：

获取预设的编码器数量步长；

确定与所述编码器数量步长相匹配的至少一个第二编码器构成的待训练模块；其中所述至少一个第二编码器的第二编码参数未知。

编码器的数量步长可以预先设置，例如可以基于目标网络模型中编码层的网络深度与训练次数的商来确定数量步长。假设目标模型模型中编码层的网络深度为12，训练次数或者训练阶段设置为3，则编码器的数量步长可以为4。

在实际应用中，在神经网络模型的训练初期，可能各个网络层的模型参数均处于未知状态，此时需要对目标网络模型中的基础网络模型进行训练，以获得第一次的训练过程。

如图3所示，为本申请实施例提供的一种数据处理方法的又一个实施例的流程图，该方法与可以包括以下几个步骤：

301：判断是否存在模型参数已知的第一网络模块；如果是，则执行101步骤；如果否，则执行步骤302。

302：获取参数未知的基础训练模块为所述第二网络模块中的待训练模块。并在步骤302执行结束时，转至执行步骤104。

在开始训练网络模型时，可能并不存在模型参数已知的第一网络模块，也即，此时第一网络模块为空。在获取为第一网络模块新增加的待训练模块时，实际是仅获取新增加的待训练模块，该待训练模块为目标网络模型中的基础训练模块。基础训练模块作为待训练模块，并执行后续的基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。此时，获得的待训练模块的模型参数即为基础训练模块的模型参数。

基础网络模块可以包括向量表示层、初始的编码层以及分类层。此时基础网络模块中向量表示层、初始的编码层以及分类层的模型参数未知。可以将基础网络模块作为待训练模块进行模型参数的训练，以获得基础网络模块中的模型参数。

参考图3所示实施例，基础训练模块可以包括：向量表示层、基础编码器构成的编码层以及分类层；其中，所述向量表示层的向量参数、所述至少一个第一编码器构成的编码层的第一编码参数以及所述分类层的分类参数未知。

如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤可以包括：

如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块；

基于多个训练数据，训练获得所述基础训练模块中所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的编码参数以及所述分类层的分类参数。

其中，基础编码层中包括至少一个编码器。该编码器可以与第一编码器以及第二编码器相同。本申请实施例中所述的“第一”“第二”仅仅是为了从名称上区分不同的编码器，并不从编码器结构以及编码器原理上区分不同的编码器。

本申请实施例中，在获取到参数未知的基础训练模块之后，可以将基础训练模块作为第二网络模块中的待训练模块。并基于多个训练数据，训练获得基础训练模块中向量表示层的向量参数、至少一个编码器构成的编码层以及分类层的分类参数。通过多个训练数据，可以训练获得基础训练模块的模型参数。如果基础训练模块训练结束，将基础训练模块作为第一网络模块开始执行后续的为第一网络模块增加待训练模块的步骤，此时基础训练模块中的至少一个编码器即分别为前文中的至少一个第一编码器。

如果基础训练模块训练结束，且第一网络模块中包含除基础训练模块之外的编码器，此时，第一网络模块中的至少一个第一编码器中除包含基础训练模块中的至少一个编码器之外，还包含新增加的且训练结束的其他编码器。

也就是，基于训练阶段的不同，在第一训练阶段，基础训练模块作为待训练模块进行参数训练，此时第一网络模块为空。在第二训练阶段，基础训练模块作为第一网络模块，并在第一网络模块的基础上增加新的待训练模块，也即在基础训练模块的基础上增加新的待训练模块。在第三以及以上的训练阶段，将前一次训练获得的第二网络模块作为第一网络模块，并为新获得的第一网络模块增加新的待训练模块，直至达到编码层中编码器的数量达到预设网络层数。

在前述实施例中，待训练模块可以为新增加的至少一个第二解码器，还为向量表示层、至少一个第一编码器以及分类层构成的基础训练模块。在对待训练模块进行参数训练时，基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数具体可以包括：

参数确定步骤：确定所述第二网络模块中所述待训练模块的参考训练参数，以获得所述参考训练参数构成的所述待训练网络模块以及所述模型参数已知的所述第一网络模块构成的第二网络模块；

将所述多个训练数据依次输入所述第二网络模块，分别计算获得所述多个训练数据分别对应的预测结果；

若所述多个训练数据分别对应的预测结果满足预设训练目标，则确定所述参考训练参数为所述待训练模块的模型参数，以获得所述第二网络模块的所有模型参数；

若所述多个训练数据分别对应的预测结果不满足预设训练目标，则基于所述多个训练数据分别对应的预测结果调整所述第二网络模块中所述待训练模块的所述参考训练参数，并转至所述参数确定步骤继续执行。

其中，在初始训练时，由于第二网络模块中的待训练模块的模型参数为未知量，此时可以初始化该第二网络模块中待训练模块的模型参数，第二网络模块中待训练模块的参考训练参数即为初始训练参数。在训练过程中，需要不断调整第二网络模块中待训练模块的模型参数，此时第二网络模块中的待训练模块的参考模型参数为训练过程中产生的中间训练参数。

在某些实施例中，所述将所述多个训练数据依次输入所述第二网络模块，分别计算获得所述多个训练数据分别对应的预测结果之后，还包括：

基于所述多个训练数据分别对应的预测结果以及所述多个训练数据分别对应的结果标识，确定所述第二网络模块当前的收敛信息。

所述若所述多个训练数据分别对应的预测结果满足预设训练目标，则确定所述参考训练参数为所述待训练模块的模型参数，以获得所述第二网络模块的所有模型参数包括：

若所述第二网络模块当前的收敛信息满足收敛条件，则确定所述参考训练参数为所述待训练模块的模型参数，以获得所述第二网络模块的所有模型参数；

所述若所述多个训练数据分别对应的预测结果不满足预设训练目标，则基于所述多个训练数据分别对应的预测结果调整所述第二网络模块中所述待训练模块的所述参考训练参数，并转至所述参数确定步骤继续执行包括：

若所述第二网络模块当前的收敛信息不满足收敛条件，则基于所述多个训练数据分别对应的预测结果调整所述第二网络模块中所述待训练模块的所述参考训练参数，并转至所述参数确定步骤继续执行。

在具体的训练过程中，若待训练模块为基础训练模块，则此时第一网络模块不存在，也即确定所述待训练模块的参考训练参数，以获得所述参考训练参数构成的所述待训练网络模块构成的第二网络模块，此后的训练步骤相同。

在一种可能的设计中，基于所述多个训练数据分别对应的预测结果以及所述多个训练数据分别对应的结果标识，确定所述第二网络模块当前的收敛信息具体可以包括：

针对任一个训练数据，将所述训练数据对应的结果标识以及训练数据输入目标函数，计算获得所述训练数据对应的损失数据，以获得所述多个训练数据分别对应的损失数据；

根据所述多个训练数据分别对应的损失数据，确定所述第二网络模块的损失结果；

其中，所述第二网络模块当前的收敛信息是否满足收敛条件具体可以包括：判断所述损失结果是否满足预设损失阈值。

若损失结果满足预设损失阈值，则确定第二网络模块当前的收敛信息满足收敛条件；若损失结果不满足损失阈值，则确定第二网络模块当前的收敛信息不满足收敛条件。

损失阈值可以预先设置。如果损失结果为损失误差数据，通常为了确保模型的使用精度，需要误差数据越小越好，损失结果满足预设损失阈值实际可以为损失误差数据小于损失阈值，损失阈值例如可以设置为0.1、0.05等。如果损失结果为正确率，通常为了确保模型的使用精度，需要正确率越高越好，损失结果满足预设损失阈值实际可以为正确率大于损失阈值，损失阈值例如可以设置为0.98、0.95等。

在实际应用中，可以通过与用户交互实现模型参数的训练触发。

作为一个实施例，所述步骤101：确定模型参数已知的第一网络模块具体可以包括：

检测第一用户触发的训练请求；

响应所述训练请求，确定模型参数已知的第一网络模块。

在某些实施例中，在获得待训练模块的模型参数之后，可以为第一用户输出该模型参数，并针对该模型参数进行输出，以提示第一用户对该模型参数进行确认。所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数之后，该方法还可以包括：

为所述第一用户输出所述第二网络模块中所述待训练模块的模型参数，以供所述第一用户对所述第二网络模块中的所述待训练模块的模型参数进行确认。

如图4所示，为本申请实施例提供的一种数据处理方法的又一个实施例的流程图，该方法可以包括：

401：判断是否存在模型参数已知的第一网络模块，若是，则执行步骤402；若否则执行步骤403。

402：确定模型参数已知的第一网络模块，之后转至步骤404。

403：获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，之后转至步骤406。

404：获取为所述第一网络模块新增加的待训练模块。

405：根据所述第一网络模块以及所述待训练模块，构建第二网络模块。

406：基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

407：判断所述第二网络模块是否满足模型构成条件，若是，则执行步骤408；若否，则执行步骤409。

408：确定所述第二网络模块为目标网络模型。

409：将所述第二网络模块作为新的第一网络模块，并返回至步骤404。

为了便于理解，参考图5，以目标网络模块为12层的BERT模型为例对本申请实施例的技术方案进行详细说明。

第一用户使用计算机M1触发训练请求，计算机M1可以将训练请求发送501至服务器M2。服务器M2接收该训练请求，并响应502该训练请求，开始执行BERT模型的模型参数的训练。

假设设置的编码器数量步长为4，BERT模型的编码层包含12个编码器，可以将BERT模型的分三次训练。

在第一训练阶段：

服务器M2可以获取503参数未知的基础训练模块为第二网络模块中的待训练模块。该基础训练模块中可以包括向量表示层、4个编码器构成的编码层以及分类层。基础训练模块的参数未知。服务器M2可以基于多个训练数据，训练获得504第二网络模块中待训练模块的模型参数。

4个编码器不满足模型构成条件，进入第二训练阶段：

服务器M2可以将第二网络模块作为新的第一网络模块，也即将模型参数已知的基础训练模块作为505第一网络模块。该第一网络模块的编码层中的4个编码器为4个第一编码器。之后，服务器M1获取506为该第一网络模块新增加的待训练模块，由于编码器步长数量为4，待训练模块可以为4个第二编码器。将待训练模块，也即新的4个第二编码器增加到第一网络模块的编码层，获得507包括4个第一编码器以及4个第二编码器构成的编码层的第二网络模块。其中，4个第一编码器的模型参数已知，4个第二编码器的模型参数未知。服务器M1可以基于多个训练数据，训练508获得第二网络模块中4个第二编码器的模型参数。此时，第二网络模块中的8个编码器构成的编码层的模型参数均已知。

8个编码器不满足模型构成条件，进入第三训练阶段：

服务器M2可以将第二网络模块作为509新的第一网络模块，该第一网络模块中包括8个第一编码器构成的编码层。然后服务器M2可以获取510为第一网络模块新增加的待训练模块，由于编码器步长数量为4，待训练模块可以为4个第二编码器。将待训练模块，也即新的4个第二编码器增加到第一网络模块的编码层，获得511包含8个第一编码器以及4个第二编码器构成的编码层的第二网络模块。其中，8个第一编码器的模型参数已知，4个第二编码器的模型参数未知。服务器M1可以基于多个训练数据，训练512获得第二网络模块中4个第二编码器的模型参数。此时，第二网络模块中的12个编码器构成的编码层的模型参数均已知。而12个编码器又满足模型构成条件，则可以确定第二网络模块为目标网络模型，从而完成目标网络模型的模型参数的训练。

在实际应用中，参考图6，以第二用户端为平板电脑为例详细说明本申请实施例中目标网络模型的使用过程。手机M3可以检测601第二用户使用输入的待处理语句，例如，该待处理语句为“今天天气怎么样”。服务器M2可以获取该待处理语句，并获得602训练结束的目标网络模型的目标模型参数；将所述待处理语句输入所述目标模型参数对应的所述目标网络模型，计算获得603所述待处理语句对应的目标信息，例如该目标信息可以为“今天是个大晴天”。之后，服务器M2可以将“今天是个大晴天”的目标信息发送604至手机M3，手机M3可以通过显示屏幕输出“今天是个大晴天”这一目标信息。

如图7所示，为本申请实施例提供的一种数据处理装置的一个实施例的结构示意图，该装置可以包括：

模型确定模块701：用于确定模型参数已知的第一网络模块；

模型新增模块702：用于获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；

新增构建模块703：用于根据所述第一网络模块以及所述待训练模块，构建第二网络模块；

参数训练模块704：用于基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

作为一个实施例，该装置还可以包括：

第一判断模块，用于判断所述第二网络模块是否满足模型构成条件；

第一结果模块，用于如果是，则确定所述第二网络模块为目标网络模型；

第二结果模块，用于如果否，则将所述第二网络模块作为新的第一网络模块，并返回至模型新增模块。

在某些实施例中，第一结果模块还用于：确定所述第一网络模块的模型参数以及所述待训练模块的模型参数为所述目标网络模型的目标模型参数。

在某些实施例中，第一判断模块具体可以用于：判断所述第二网络模块的编码层中的编码器的数量是否达到预设网络层数。

在某些实施例中，新增构建模块可以包括：

第一确定单元，用于确定所述第一网络模块中的向量表示层、第一编码层以及分类层；其中，所述向量表示层的向量参数、所述第一编码器的第一编码参数以及所述分类层的分类参数已知；

第一增加单元，用于将所述待训练模块增加到所述第一编码层，获得第二编码层；

第二确定单元，用于确定所述向量表示层、第二编码层以及所述分类层构成的所述第二网络模块。

参数训练模块可以包括：

第一训练单元，用于基于多个训练数据，训练所述第二网络模块的编码层中所述待训练模块的模型参数。

作为又一个实施例，模型确定模块可以包括：

第一判断单元，用于判断是否存在模型参数已知的第一网络模块；

第一结果单元，用于如果是，则执行所述确定模型参数已知的第一网络模块步骤；

第二结果单元，用于如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤。

在某些实施例中，基础训练模块包括：向量表示层、基础编码器构成的编码层以及分类层；其中，所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的第一编码参数以及所述分类层的分类参数未知。

第二结果单元具体可以用于：

如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块；基于多个训练数据，训练获得所述基础训练模块中所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的编码参数以及所述分类层的分类参数。

作为又一个实施例，参数训练模块可以包括：

参数确定单元，用于确定所述第二网络模块中所述待训练模块的参考训练参数，以获得所述参考训练参数构成的所述待训练网络模块以及所述模型参数已知的所述第一网络模块构成的第二网络模块；

结果预测单元，用于将所述多个训练数据依次输入所述第二网络模块，分别计算获得所述多个训练数据分别对应的预测结果；

第三确定单元，用于若所述多个训练数据分别对应的预测结果满足预设训练目标，则确定所述参考训练参数为所述待训练模块的模型参数，以获得所述第二网络模块的所有模型参数；

第四确定单元，用于若所述多个训练数据分别对应的预测结果不满足预设训练目标，则基于所述多个训练数据分别对应的预测结果调整所述第二网络模块中所述待训练模块的所述参考训练参数，并转至所述参数确定步骤继续执行。

作为又一个实施例，模型确定模块可以包括：

请求检测单元，用于检测第一用户触发的训练请求；

请求响应单元，用于响应所述训练请求，确定模型参数已知的第一网络模块。

在某些实施例中，该装置还可以包括：

参数确定模块，用于为所述第一用户输出所述第二网络模块中所述待训练模块的模型参数，以供所述第一用户对所述第二网络模块中的所述待训练模块的模型参数进行确认。

作为一个实施例，该装置还可以包括：

参数获取模块，用于获取目标网络模型的目标模型参数；

语句检测模块，用于检测第二用户输入的待处理语句；

第一计算模块，用于将所述待处理语句输入所述目标模型参数对应的所述目标网络模型，计算获得所述待处理语句对应的目标信息；

第一输出模块，用于为所述第二用户输出所述目标信息。

作为又一个实施例，该装置还可以包括：

参数获取模块，用于获取目标网络模型的目标模型参数；

用户信息模块，用于确定第三用户的用户信息；

第二计算模块，用于将所述用户信息输入所述目标模型参数对应的所述目标网络模型，计算获得与所述第三用户相匹配的第一推荐内容；

第二输出模块，用于为所述第三用户输出所述第一推荐内容。

作为又一个实施例，该装置还可以包括：

参数获取模块，用于获取目标网络模型的目标模型参数；

图像获取模块，用于确定第四用户输入的待处理图像；

第三计算模块，用于将所述待处理图像输入所述目标模型参数对应的所述目标网络模型，计算获得与所述待处理图像相匹配的第二推荐内容；

第三输出模块，用于为所述第四用户输出所述第二推荐内容。

图7所述的数据处理装置可以执行图1～图4所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在实际应用中，图7所示的实施例可以配置为一计算设备，参考图8，为本申请实施例提供的一种计算设备的一个实施例的结构示意图，设备可以包括：存储组件801以及处理组件802；所述存储组件801用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件802调用以执行图1～图4中所述的任一种数据处理方法。

其中，处理组件802可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件801被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

此外，本申请实施例还提供了一种存储介质，包括：计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被计算机执行时可以实现上述图1～图4所示实施例提供的任一种数据处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定模型参数已知的第一网络模块；

2.根据权利要求1所述的方法，其特征在于，还包括：

判断所述第二网络模块是否满足模型构成条件；

如果是，则确定所述第二网络模块为目标网络模型；

如果否，则将所述第二网络模块作为新的第一网络模块，并返回至获取为所述第一网络模块新增加的待训练模块的步骤继续执行。

3.根据权利要求2所述的方法，其特征在于，所述如果是，则确定所述第二网络模块为目标网络模型之后，还包括：

确定所述第一网络模块的模型参数以及所述待训练模块的模型参数为所述目标网络模型的目标模型参数。

4.根据权利要求2所述的方法，其特征在于，所述判断所述第二网络模块是否满足模型构成条件包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一网络模块以及所述待训练模块，构建第二网络模块包括：

所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数包括：

6.根据权利要求1所述的方法，其特征在于，所述确定模型参数已知的第一网络模块包括：

判断是否存在模型参数已知的第一网络模块；

如果是，则执行所述确定模型参数已知的第一网络模块步骤；

如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤。

7.根据权利要求6所述的方法，其特征在于，所述基础训练模块包括：向量表示层、基础编码器构成的编码层以及分类层；其中，所述向量表示层的向量参数、所述至少一个编码器构成的基础编码层的第一编码参数以及所述分类层的分类参数未知；

所述如果否，则获取参数未知的基础训练模块为所述第二网络模块中的待训练模块，并转至基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数步骤具体包括：

8.根据权利要求1所述的方法，其特征在于，所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数包括：

9.根据权利要求1所述的方法，其特征在于，所述确定模型参数已知的第一网络模块包括：

检测第一用户触发的训练请求；

响应所述训练请求，确定模型参数已知的第一网络模块。

10.根据权利要求9所述的方法，其特征在于，所述基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数之后，还包括：

11.根据权利要求3所述的方法，其特征在于，包括：

获取目标网络模型的目标模型参数；

检测第二用户输入的待处理语句；

为所述第二用户输出所述目标信息。

12.根据权利要求3所述的方法，其特征在于，包括：

获取目标网络模型的目标模型参数；

确定第三用户的用户信息；

为所述第三用户输出所述第一推荐内容。

13.根据权利要求3所述的方法，其特征在于，包括：

获取目标网络模型的目标模型参数；

确定第四用户输入的待处理图像；

为所述第四用户输出所述第二推荐内容。

14.一种数据处理装置，其特征在于，包括：

模型确定模块，用于确定模型参数已知的第一网络模块；

15.一种计算设备，其特征在于，包括：存储组件与处理组件；所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行权利要求1～13任一项所述的数据处理方法。

16.一种存储介质，其特征在于，包括：计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时以实现权利要求1～13任一项所述的数据处理方法。