CN112799658B

CN112799658B - 模型训练方法、模型训练平台、电子设备和存储介质

Info

Publication number: CN112799658B
Application number: CN202110386608.2A
Authority: CN
Inventors: 龚建; 孙宇; �田�浩; 吴华; 王海峰; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-03-01
Anticipated expiration: 2041-04-12
Also published as: US20220198153A1; CN112799658A; JP7331175B2; JP2022068264A

Abstract

本公开提供了一种模型训练方法、模型训练平台、电子设备和存储介质，可以用于人工智能领域，特别是自然语言处理领域和深度学习领域中。该模型训练方法包括：接收输入；基于输入来确定面向用户的预制功能；基于输入来确定模型训练功能；基于输入来确定预训练模型；基于输入来确定与预训练模型相关联的网络结构，以支持对预训练模型的使用；基于输入，使用预制功能、模型训练功能和预训练模型来训练模型；以及提供与经训练的模型相关联的输出。上述模型训练方法可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。

Description

模型训练方法、模型训练平台、电子设备和存储介质

技术领域

本公开涉及计算机技术，并且更具体地，涉及模型训练方法、模型训练平台、电子设备和存储介质，可以用于人工智能领域，特别是自然语言处理领域和深度学习领域中。

背景技术

近年来，人工智能领域中的、以预训练为代表的自然语言处理技术获得了爆发式发展，新技术和新模型层出不穷。在新时代背景下，如何将多样化的先进的自然语言处理领域科研成果高效地应用到产业实践中并解决实际问题，是自然语言处理领域中的核心问题。此外，深度学习是人工智能领域中的关键技术，研发人员通常基于深度学习框架来开展相关工作。

然而，传统的用于模型训练的方法和平台无法满足复杂的深度学习开发要求，并且因此无法满足用户对于高效模型训练方法和模型训练平台的需求。

发明内容

根据本公开的实施例，提供了一种模型训练方法、模型训练平台、电子设备和存储介质。

在本公开的第一方面中，提供了一种模型训练方法，包括：通过利用至少一种交互模式进行的交互来接收输入，交互模式与交互界面相关联；基于输入来确定面向用户的预制功能，预制功能与被训练的模型相关联；基于输入来确定支持进行模型训练所需的模型训练功能，模型训练功能与模型的训练过程相关联；基于输入来确定基于深度学习而被预先训练好的预训练模型；基于输入来确定与预训练模型相关联的网络结构，以支持对预训练模型的使用；基于输入，使用预制功能、模型训练功能和预训练模型来训练模型；以及通过利用至少一种交互模式进行的交互来提供与经训练的模型相关联的输出。

在本公开的第二方面中，提供了一种模型训练平台，包括：数据交互模块，被配置为提供至少一种交互模式，以支持从模型训练平台的外部接收输入以及向模型训练平台的外部提供输出，交互模式与交互界面相关联；交互支持模块，被配置为提供对数据交互模块与模型训练平台中的其他模块之间的交互的支持，交互与模型训练相关联；功能提供模块，被配置为提供面向用户的预制功能，预制功能与由模型训练平台训练的模型相关联；模型训练支持模块，被配置为提供支持使用模型训练平台进行模型训练所需的模型训练功能，模型训练功能与模型的训练过程相关联；预训练模型模块，被配置为提供基于深度学习而被预先训练好的预训练模型；以及预训练模型支持模块，被配置为提供与预训练模型相关联的网络结构，以支持对预训练模型的使用。

在本公开的第三方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

利用本公开的实施方式的技术方案，通过建设通用的、基于预训练语义理解技术的自然语言处理定制化训练与开发平台，来极大地减少数据标注、底层代码开发的人力和物力，从而可以满足产业化应用的需求。具体而言，利用本公开的实施方式的技术方案，提供了一种模型训练平台，该模型训练平台可以覆盖全面的自然语言处理定制化开发场景，可以通过定制化预训练技术来提供更为高效的模型训练能力，可以提供简单易行的交互方式，并且可以通过模块之间的独立来提高平台的可扩展性，从而可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。应当理解，附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了根据本公开的实施例的模型训练平台100的示意性框图；

图2示出了根据本公开的实施例的模型训练平台200的示意性框图；

图3示出了可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境300的示意性框图；

图4示出了根据本公开实施例的模型训练方法400的流程图；

图5示出了根据本公开实施例的模型训练方法500的流程图；以及

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，传统的用于模型训练的方法和平台无法满足复杂的深度学习开发要求，并且因此无法满足用户对于高效模型训练方法和模型训练平台的需求。

例如，在传统技术中，模型训练平台通常有两种实现方式。第一种实现方式利用专注于基础任务的工业级自然语言处理工具包，这种实现方式基于国际上开源的深度学习开发框架如TensorFlow、Pytorch进行一定的代码封装，并预制文本分类、文本匹配、序列标注等基础任务的开发实例代码，同时预制国际上开源的预训练模型，以实现基本的自然语言处理训练任务。第二种实现方式基于传统机器学习技术的数据分析平台，这种实现方式主要要过提供内置的传统算法模型，包括非深度学习的、不基于预训练模型的分类、回归、聚类等算法。并复合组合模型，迭代进行分析。通过单一的界面模块进行参数配置结果展示等。然而，传统技术中的实现方式均存在明显的不足。

对于第一种实现方式，从应用层面来看，其预制任务太少，无法满足工业化场景中复杂多样的自然语言处理训练需求；其采用国际上开源的深度学习框架和预训练模型，但并不掌握这些技术的核心控制权，存在被技术性限制的风险；其只提供通用预训练模型，对特定场景任务还需要进一步预训练，从而导致成本过高，并且如果只做细微调节效果又不够理想；其一般只对于特定任务的数据预处理工作有定制，而面对更加灵活复杂的数据预处理场景不够灵活方便；其蒸馏工具过于单一，甚至不提供蒸馏方式，从而影响模型部署；其一般不提供针对部署场景的加速方案，从而难以满足复杂的工业化场景需求。从系统层面来看，其组网代码封装不够灵活，无法灵活修改网络结构，不能支持多标签、多任务学习；其一般不兼容web交互式开发平台，对于不同技术层次的用户支持不够充分。

对于第二种实现方式，由于深度学习算法的复杂度远高于传统机器学习算法，因而涉及到的算法和功能整合功能对开发人员有较高的要求。导致原有的机器学习框架无法满足复杂的深度学习开发要求；并且其对于深度学习所常见的模型保存热启动功能传统机器学习平台并没有相应的支持。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种模型训练平台，该模型训练平台可以覆盖全面的自然语言处理定制化开发场景，可以通过定制化预训练技术来提供更为高效的模型训练能力，可以提供简单易行的交互方式，并且可以通过模块之间的独立来提高平台的可扩展性，从而可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。

图1示出了根据本公开的实施例的模型训练平台100的示意性框图。如图1中所示，模型训练平台100包括数据交互模块101、交互支持模块102、功能提供模块103、模型训练支持模块104、预训练模型模块105和预训练模型支持模块106。

数据交互模块101被配置为提供至少一种交互模式，以支持从模型训练平台100的外部接收输入以及向模型训练平台100的外部提供输出，其中交互模式与交互界面相关联。根据本公开的一个或多个实施例，针对不同的用户，可以提供不同的交互界面以暴露不同的接口。例如，Easydl零门槛平台上用户只需配置数据输入输出地址即可，而在BML全功能平台上，用户可以进一步配置任务参数、工作流、甚至神经网络结构等。

交互支持模块102被配置为提供对数据交互模块与模型训练平台100中的其他模块之间的交互的支持，其中交互与模型训练相关联。根据本公开的一个或多个实施例，交互支持模块102可以被配置为提供对以下一种或多种交互的支持：与网络选择相关联的交互模式、与网络组装相关联的交互模式、与网络存储相关联的交互模式、与训练包组装相关联的交互模式、与训练任务启动相关联的交互模式、与鉴权相关联的交互模式、以及与统计相关联的交互模式。此外，由于交互支持模块102被与数据交互模块101解耦，所以同样的交互支持模块102可以用于不同产品定位的数据交互模块101，在技术上只需要暴露不同的接口即可实现，从而可以提供良好的便利性。

功能提供模块103被配置为提供面向用户的预制功能，其中预制功能与由模型训练平台训练的模型相关联。根据本公开的一个或多个实施例，功能提供模块103被配置为提供为用户预制的各种工业界所需要的特定功能，这些功能例如可以包括以下一种或多种功能：文本多标签分类功能、文本层次化分类功能、小样本文本分类功能、带噪声文本分类功能、实体识别功能、实体关系抽取功能、实体属性抽取功能、术语重要性分析功能、情感分析功能、文本审核功能、搜索-召回功能、搜索-排序功能、文本摘要生成功能、文本纠错功能、数据蒸馏功能、模型蒸馏功能、多标签学习功能、多任务学习功能、自监督预训练学习功能、特征重要性分析功能、医疗实体识别功能、医疗问答匹配功能、法条推荐功能、以及罪名预测功能。

模型训练支持模块104被配置为提供支持使用模型训练平台100进行模型训练所需的模型训练功能，其中模型训练功能与模型的训练过程相关联。根据本公开的一个或多个实施例，述模型训练支持模块104被配置为提供以下一种或多种功能：执行器初始化功能、操作程序初始化功能、单机多卡环境配置功能、多机多卡环境配置功能、多机中央处理单元环境配置功能、模型载入功能、以及模型保存功能。用户无需编写底层代码，而是可以直接通过相关配置即可应用上述功能。

预训练模型模块105被配置为提供基于深度学习而被预先训练好的预训练模型。根据本公开的一个或多个实施例，预训练模型是基于深度学习而被提前预训练的模型，这些模型及其网络可以被组装到其他任务的神经网络中，并且而后可以基于已经被训练好的模型热启动来进一步微调训练，从而可以得到相比不使用预训练模型显著优异的效果。例如，预训练模型模块105可以被配置为提供以下一种或多种预训练模型：通用预训练模型、与医疗健康相关联的预训练模型、与法律法规相关联的预训练模型、与情感计算相关联的预训练模型、与文本审核相关联的预训练模型以及与金融领域相关联的预训练模型。

预训练模型支持模块106被配置为提供与预训练模型相关联的网络结构，以支持对预训练模型的使用。根据本公开的一个或多个实施例，由于不同的预训练模型的网络结构并不一样，因此预训练模型支持模块106可以被配置用于整合不同预训练模型所共有的网络结构，并且可以灵活通过修改配置来切换不同的网络结构，从而使得可以为用户实现一键替换预训练模型的功能。

图2示出了根据本公开的实施例的模型训练平台200的示意性框图。如图2中所示，模型训练平台200包括数据交互模块201、交互支持模块202、功能提供模块203、模型训练支持模块204、预训练模型模块205、预训练模型支持模块206、配置信息接收模块207、数据预处理模块208、复杂学习任务支持模块209、训练定制模块210以及模型应用模块211。

数据交互模块201、交互支持模块202、功能提供模块203、模型训练支持模块204、预训练模型模块205和预训练模型支持模块206的功能与数据交互模块101、交互支持模块102、功能提供模块103、模型训练支持模块104、预训练模型模块105和预训练模型支持模块106的功能基本上相同，在此不再赘述。

配置信息接收模块207被配置为接收与请求应用由模型训练平台200中的模块所提供的功能相关联的配置信息。根据本公开的一个或多个实施例，配置信息接收模块207包括以下一项或多项：配置信息导入模块（未示出），被配置为导入配置信息；注册器模块（未示出），被配置为注册配置信息；json解析模块（未示出），被配置为基于配置信息进行json解析；以及类名匹配模块（未示出），被配置为基于配置信息进行类名匹配。利用上述模块，使得用户只需要按照规定的配置文件格式来填写配置信息，就可以应用所期望的功能。

数据预处理模块208被配置为对接收的模型训练平台200的输入进行预处理。根据本公开的一个或多个实施例，数据预处理模块208包括以下一项或多项：数据集读取模块，被配置为从输入读取数据集以用于预处理；域读取模块，被配置为从输入读取域以用于预处理；分词器模块，被配置为对输入进行分词以用于预处理；以及词表模块，被配置为从输入获取词表以用于预处理。通过抽象出特征域的概念，当对于同一个样本存在不同域的时候，不同域有单独的数据类型（文本、数值、整型、浮点型）、开源有单独的词表（vocabulary）等，可以根据不同域进行语义表示，如文本转id等操作，从而使得能够灵活扩展各种复杂的任务所需的数据结构，以及可以支持非文本的数值类特征输入。

复杂学习任务支持模块209被配置为提供对复杂学习任务的网络结构设计开发的支持。根据本公开的一个或多个实施例，复杂学习任务支持模块209包括以下一项或多项：前向传播网络模块，被配置为提供用于复杂学习任务的前向传播网络；优化策略模块，被配置为提供用于网络结构设计开发的优化策略；以及评估指标模块，被配置为提供用于网络结构设计开发的评估指标。利用上述模块，能够实现对如多标签学习、多任务学习等复杂任务的网络结构设计开发。

训练定制模块210被配置为基于输入来调整与模型训练相关联的操作。根据本公开的一个或多个实施例，训练定制模块210包括以下一项或多项：定制训练流程模块，被配置为基于输入来调整与模型训练相关联的训练流程；定制评估流程模块，被配置为基于输入来调整与模型训练相关联的评估流程；以及可视化评估模块，被配置为基于输入来调整与模型训练相关联的可视化评估。利用上述模块，模型训练平台200的用户可以灵活地修改训练、评估流程，从而完成更复杂的训练任务设计开发。

模型应用模块211被配置为提供用于与应用经训练的模型相关联的功能。根据本公开的一个或多个实施例，模型应用模块211被配置为提供以下一种或多种功能：专用处理单元部署功能、中央处理单元部署功能、单条预测功能、批量预测功能、C++应用编程接口功能、以及Python应用编程接口功能。利用上述功能，可以完成针对与经训练的模型相关联的功能的产业化应用。

图3示出了可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境300的示意性框图。根据本公开的一个或多个实施例，模型训练环境300可以是云环境。如图3中所示，模型训练环境300包括计算设备310。在模型训练环境300中，输入数据320作为计算设备310的输入被提供给计算设备310。输入数据320例如可以包括以上参照模型训练平台100和模型训练平台200所描述的、可以作为模型训练平台100和模型训练平台200的输入的输入数据。例如，输入数据320可以包括与模型训练相关联的数据输入输出地址、任务参数、工作流、神经网络结构、对交互模式的选择、对面向用户的预制功能的选择、对模型训练功能的选择、对预训练模型的选择、对与预训练模型相关联的网络结构的选择、配置信息和希望对配置信息采取的操作、对预处理的选择、与复杂学习任务的网络结构设计开发相关联的输入、用于调整与模型训练相关联的操作的输入、以及对与应用经训练的模型相关联的功能的选择等。根据本公开的一个或多个实施例，计算设备310可以通过利用至少一种交互模式进行的交互来接收输入数据320。

在接收到输入数据320之后，计算设备310可以基于输入数据320来执行模型训练操作，并且提供与经训练的模型相关联的输出作为输出数据330。根据本公开的一个或多个实施例，计算设备310可以通过利用至少一种交互模式进行的交互来提供与经训练的模型相关联的输出作为输出数据330，并且输出数据330例如可以包括与经训练的模型相关联参数、评估结果甚至经训练的模型本身等。

应当理解，模型训练环境300仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备310，并且可以向计算设备310提供更多的输入数据320以及从计算设备310提供更多的输出数据330，从而使得可以满足更多用户同时利用更多的计算设备310，甚至利用更多的输入数据320来同时或者非同时地进行模型训练操作以得到更多的输出数据330的需求。

在图3所示的模型训练环境300中，输入数据320向计算设备310的输入以及输出数据330从计算设备310的输出可以通过网络来进行。

图4示出了根据本公开的实施例的模型训练方法400的流程图。具体而言，模型训练方法400可以使用如图1中所示的模型训练平台100而被实现，并且可以由图3中所示的模型训练环境300中的计算设备310来执行。应当理解的是，模型训练方法400还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框402，计算设备310通过利用至少一种交互模式进行的交互来接收输入，其中交互模式与交互界面相关联。根据本公开的一个或多个实施例，针对不同的用户，可以提供不同的交互界面以暴露不同的接口。例如，Easydl零门槛平台上用户只需配置数据输入输出地址即可，而在BML全功能平台上，用户可以进一步配置任务参数、工作流、甚至神经网络结构等。

根据本公开的一个或多个实施例，利用至少一种交互模式进行的交互包括以下一种或多种交互：与网络选择相关联的交互、与网络组装相关联的交互、与网络存储相关联的交互、与训练包组装相关联的交互、与训练任务启动相关联的交互、与鉴权相关联的交互、以及与统计相关联的交互。

在框404，计算设备310基于输入来确定面向用户的预制功能，其中预制功能与被训练的模型相关联。根据本公开的一个或多个实施例，确定面向用户的预制功能包括确定以下一种或多种功能：文本多标签分类功能、文本层次化分类功能、小样本文本分类功能、带噪声文本分类功能、实体识别功能、实体关系抽取功能、实体属性抽取功能、术语重要性分析功能、情感分析功能、文本审核功能、搜索-召回功能、搜索-排序功能、文本摘要生成功能、文本纠错功能、数据蒸馏功能、模型蒸馏功能、多标签学习功能、多任务学习功能、自监督预训练学习功能、特征重要性分析功能、医疗实体识别功能、医疗问答匹配功能、法条推荐功能、以及罪名预测功能。上述各种功能是为用户预制的各种工业界所需要的特定功能。

在框406，计算设备310基于输入来确定支持进行模型训练所需的模型训练功能，其中模型训练功能与模型的训练过程相关联。根据本公开的一个或多个实施例，确定支持进行模型训练所需的模型训练功能包括确定以下一种或多种功能：执行器初始化功能、操作程序初始化功能、单机多卡环境配置功能、多机多卡环境配置功能、多机中央处理单元环境配置功能、模型载入功能、以及模型保存功能。用户无需编写底层代码，而是可以直接通过相关配置即可应用上述功能。

在框408，计算设备310基于输入来确定基于深度学习而被预先训练好的预训练模型。根据本公开的一个或多个实施例，根据本公开的一个或多个实施例，预训练模型是基于深度学习而被提前预训练的模型，这些模型及其网络可以被组装到其他任务的神经网络中，并且而后可以基于已经被训练好的模型热启动来进一步微调训练，从而可以得到相比不使用预训练模型显著优异的效果。

在框410，计算设备310基于输入来确定与预训练模型相关联的网络结构，以支持对预训练模型的使用。根据本公开的一个或多个实施例，由于不同的预训练模型的网络结构并不一样，因此可以整合不同预训练模型所共有的网络结构，并且可以灵活通过修改配置来切换不同的网络结构，从而使得可以为用户实现一键替换预训练模型的功能。

在框412，计算设备310基于输入，使用预制功能、模型训练功能和预训练模型来训练模型。根据本公开的一个或多个实施例，在确定了要使用的预制功能、模型训练功能和预训练模型之后，计算设备310以基于这些内容以及任何可能的、被输入的其他内容来训练模型，以得到经训练的模型。

在框414，计算设备310通过利用至少一种交互模式进行的交互来提供与经训练的模型相关联的输出。根据本公开的一个或多个实施例，与经训练的模型相关联的输出例如可以包括与经训练的模型相关联参数、评估结果甚至经训练的模型本身等。

图5示出了根据本公开的实施例的模型训练方法500的流程图。具体而言，模型训练方法500可以使用如图2中所示的模型训练平台200而被实现，并且可以由图3中所示的模型训练环境300中的计算设备310来执行。应当理解的是，模型训练方法500还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框502，计算设备310计算设备310通过利用至少一种交互模式进行的交互来接收输入，其中交互模式与交互界面相关联。框502所涉及的步骤的具体内容与框402中所涉及的步骤的具体内容相同，在此不再赘述。

在框504，计算设备310对接收的输入进行预处理。根据本公开的一个或多个实施例，对接收的输入进行预处理包括以下一项或多项：从输入读取数据集以用于预处理；从输入读取域以用于预处理；对输入进行分词以用于预处理；以及从输入获取词表以用于预处理。通过抽象出特征域的概念，当对于同一个样本存在不同域的时候，不同域有单独的数据类型（文本、数值、整型、浮点型）、开源有单独的词表（vocabulary）等，可以根据不同域进行语义表示，如文本转id等操作，从而使得能够灵活扩展各种复杂的任务所需的数据结构，以及可以支持非文本的数值类特征输入。

在框506，计算设备310接收与请求应用与关联于模型训练的功能相关联的配置信息。根据本公开的一个或多个实施例，接收与请求应用与关联于模型训练的功能相关联的配置信息包括以下一项或多项：导入配置信息；注册配置信息；基于配置信息进行json解析；以及基于配置信息进行类名匹配。利用配置信息，用户只需要按照规定的配置文件格式来填写配置信息，就可以应用所期望的功能。

在框508，计算设备310基于输入来确定面向用户的预制功能，其中预制功能与被训练的模型相关联。框508所涉及的步骤的具体内容与框404中所涉及的步骤的具体内容相同，在此不再赘述。

在框510，计算设备310基于输入来确定支持进行模型训练所需的模型训练功能，其中模型训练功能与模型的训练过程相关联。框510所涉及的步骤的具体内容与框406中所涉及的步骤的具体内容相同，在此不再赘述。

在框512，计算设备310基于输入来确定基于深度学习而被预先训练好的预训练模型。框512所涉及的步骤的具体内容与框408中所涉及的步骤的具体内容相同，在此不再赘述。

在框514，计算设备310基于输入来确定与预训练模型相关联的网络结构，以支持对预训练模型的使用。框514所涉及的步骤的具体内容与框410中所涉及的步骤的具体内容相同，在此不再赘述。

在框516，计算设备310使用对复杂学习任务的网络结构设计开发的支持。根据本公开的一个或多个实施例，使用对复杂学习任务的网络结构设计开发的支持包括以下一项或多项：使用用于复杂学习任务的前向传播网络；使用用于网络结构设计开发的优化策略；以及使用用于网络结构设计开发的评估指标。使用对复杂学习任务的网络结构设计开发的支持，能够实现对如多标签学习、多任务学习等复杂任务的网络结构设计开发。

在框518，计算设备310基于输入，使用预制功能、模型训练功能和预训练模型来训练模型。框518所涉及的步骤的具体内容与框412中所涉及的步骤的具体内容相同，在此不再赘述。

在框520，计算设备310通过利用至少一种交互模式进行的交互来提供与经训练的模型相关联的输出。框520所涉及的步骤的具体内容与框414中所涉及的步骤的具体内容相同，在此不再赘述。

在框522，计算设备310基于输入来调整与模型训练相关联的操作。根据本公开的一个或多个实施例，基于输入来调整与模型训练相关联的操作包括以下一项或多项：基于输入来调整与模型训练相关联的训练流程；基于输入来调整与模型训练相关联的评估流程；以及基于输入来调整与模型训练相关联的可视化评估。通过调整与模型训练相关联的操作，用户可以灵活地修改训练、评估流程，从而完成更复杂的训练任务设计开发。

在框524，计算设备310使用与应用经训练的模型相关联的功能来应用经训练的模型。根据本公开的一个或多个实施例，使用与应用经训练的模型相关联的功能包括使用以下一种或多种功能：专用处理单元部署功能、中央处理单元部署功能、单条预测功能、批量预测功能、C++应用编程接口功能、以及Python应用编程接口功能。使用与应用经训练的模型相关联的功能来应用经训练的模型，通过可以完成针对与经训练的模型相关联的功能的产业化应用。

以上参考图1至图5描述了根据本公开的实施例的模型训练平台100、根据本公开的实施例的模型训练平台200、可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境300、根据本公开实施例的模型训练方法400以及根据本公开实施例的模型训练方法500的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

通过以上参考图1至图5的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用本公开的实施方式的技术方案，可以通过建设通用的、基于预训练语义理解技术的自然语言处理定制化训练与开发平台，以及使用模型训练方法，来极大地减少数据标注、底层代码开发的人力和物力，从而可以满足产业化应用的需求。

具体而言，利用本公开的实施方式的技术方案，提供了一种模型训练平台，该模型训练平台可以覆盖全面的自然语言处理定制化开发场景，可以通过定制化预训练技术来提供更为高效的模型训练能力，可以提供简单易行的交互方式，并且可以通过模块之间的独立来提高平台的可扩展性，从而可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。

更进一步地，使用根据本公开的实施方式的模型训练平台和模型训练方法：能够覆盖尽量全面、典型的自然语言处理定制化开发场景，形成了丰富的产业级应用支持体系，这些预制任务绝大部分都可以直接通过json配置文件进行设定，能够快速上手运行；能够通过针对医疗健康、法律法规、情感计算、文本审核、金融领域等特定场景进行定制化预训练技术的研发，使其在特定场景应用情况下不需要进行昂贵的模型预训练就能够得到非常好的效果，最终形成了丰富的预训练模型体系；能够通过各个模块之间的相互独立来灵活地扩展新的功能，从而能够适应复杂的开发任务；并且能够提供简单易上手的web交互式开发方式，使得让不同技术背景甚至毫无深度学习开发经验的用户也能够进行定制化开发。

根据本公开的实施例，本公开还提供了一种电子设备和一种计算机可读存储介质。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。例如，如图1所示的模型训练平台100、如图2所示的模型训练平台200和如图3所示的计算设备310可以由电子设备600来实施。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法400和500。例如，在一些实施例中，方法400和500可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的方法400和500的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法400和500。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

通过利用至少一种交互模式进行的交互来接收输入，所述交互模式与交互界面相关联；

基于所述输入来确定面向用户的预制功能，所述预制功能与被训练的模型相关联；

基于所述输入来确定支持进行模型训练所需的模型训练功能，所述模型训练功能与所述模型的训练过程相关联，其中确定支持进行模型训练所需的模型训练功能包括确定以下一种或多种功能：

执行器初始化功能、操作程序初始化功能、单机多卡环境配置功能、多机多卡环境配置功能、多机中央处理单元环境配置功能、模型载入功能、以及模型保存功能；

基于所述输入来确定基于深度学习而被预先训练好的预训练模型；

基于所述输入来确定与所述预训练模型相关联的网络结构，以支持对所述预训练模型的使用；

基于所述输入，使用所述预制功能、所述模型训练功能和所述预训练模型来训练模型；

通过利用所述至少一种交互模式进行的交互来提供与经训练的所述模型相关联的输出；

使用对复杂学习任务的网络结构设计开发的支持；以及

使用与应用经训练的所述模型相关联的功能来应用经训练的所述模型，其中使用与应用经训练的所述模型相关联的功能包括使用以下一种或多种功能：

专用处理单元部署功能、中央处理单元部署功能、单条预测功能、批量预测功能、C++应用编程接口功能、以及Python应用编程接口功能。

2.根据权利要求1所述的方法，其中所述交互包括以下一种或多种交互：

与网络选择相关联的交互；

与网络组装相关联的交互；

与网络存储相关联的交互；

与训练包组装相关联的交互；

与训练任务启动相关联的交互；

与鉴权相关联的交互；以及

与统计相关联的交互。

3.根据权利要求1所述的方法，还包括：

接收与请求应用与关联于模型训练的功能相关联的配置信息。

4.根据权利要求3所述的方法，其中接收与请求应用与关联于模型训练的功能相关联的配置信息包括以下一项或多项：

导入所述配置信息；

注册所述配置信息；

基于所述配置信息进行json解析；以及

基于所述配置信息进行类名匹配。

5.根据权利要求1所述的方法，还包括：

对接收的所述输入进行预处理。

6.根据权利要求5所述的方法，其中对接收的所述输入进行预处理包括以下一项或多项：

从所述输入读取数据集以用于预处理；

从所述输入读取域以用于预处理；

对所述输入进行分词以用于预处理；以及

从所述输入获取词表以用于预处理。

7.根据权利要求1所述的方法，其中使用对复杂学习任务的网络结构设计开发的支持包括以下一项或多项：

使用用于所述复杂学习任务的前向传播网络；

使用用于所述网络结构设计开发的优化策略；以及

使用用于所述网络结构设计开发的评估指标。

8.根据权利要求1所述的方法，还包括：

基于所述输入来调整与模型训练相关联的操作。

9.根据权利要求8所述的方法，其中基于所述输入来调整与模型训练相关联的操作包括以下一项或多项：

基于所述输入来调整与所述模型训练相关联的训练流程；

基于所述输入来调整与所述模型训练相关联的评估流程；以及

基于所述输入来调整与所述模型训练相关联的可视化评估。

10.一种模型训练平台，包括：

数据交互模块，被配置为提供至少一种交互模式，以支持从所述模型训练平台的外部接收输入以及向所述模型训练平台的所述外部提供输出，所述交互模式与交互界面相关联；

交互支持模块，被配置为提供对所述数据交互模块与所述模型训练平台中的其他模块之间的交互的支持，所述交互与模型训练相关联；

功能提供模块，被配置为提供面向用户的预制功能，所述预制功能与由所述模型训练平台训练的模型相关联；

模型训练支持模块，被配置为提供支持使用所述模型训练平台进行模型训练所需的模型训练功能，所述模型训练功能与所述模型的训练过程相关联，其中所述模型训练支持模块被配置为提供以下一种或多种功能：

预训练模型模块，被配置为提供基于深度学习而被预先训练好的预训练模型；

预训练模型支持模块，被配置为提供与所述预训练模型相关联的网络结构，以支持对所述预训练模型的使用；

复杂学习任务支持模块，被配置为提供对复杂学习任务的网络结构设计开发的支持；以及

模型应用模块，被配置为提供用于与应用经训练的所述模型相关联的功能，其中所述模型应用模块被配置为提供以下一种或多种功能：

11.根据权利要求10所述的模型训练平台，其中所述交互支持模块被配置为提供对以下一种或多种交互的支持：

与网络选择相关联的交互；

与网络组装相关联的交互；

与网络存储相关联的交互；

与训练包组装相关联的交互；

与训练任务启动相关联的交互；与鉴权相关联的交互；以及

与统计相关联的交互。

12.根据权利要求10所述的模型训练平台，还包括：

配置信息接收模块，被配置为接收与请求应用由所述模型训练平台中的模块所提供的功能相关联的配置信息。

13.根据权利要求12所述的模型训练平台，其中所述配置信息接收模块包括以下一项或多项：

配置信息导入模块，被配置为导入所述配置信息；

注册器模块，被配置为注册所述配置信息；

json解析模块，被配置为基于所述配置信息进行json解析；以及

类名匹配模块，被配置为基于所述配置信息进行类名匹配。

14.根据权利要求10所述的模型训练平台，还包括：

数据预处理模块，被配置为对接收的所述输入进行预处理。

15.根据权利要求14所述的模型训练平台，其中所述数据预处理模块包括以下一项或多项：

数据集读取模块，被配置为从所述输入读取数据集以用于预处理；

域读取模块，被配置为从所述输入读取域以用于预处理；

分词器模块，被配置为对所述输入进行分词以用于预处理；以及

词表模块，被配置为从所述输入获取词表以用于预处理。

16.根据权利要求10所述的模型训练平台，其中所述复杂学习任务支持模块包括以下一项或多项：

前向传播网络模块，被配置为提供用于所述复杂学习任务的前向传播网络；

优化策略模块，被配置为提供用于所述网络结构设计开发的优化策略；以及

评估指标模块，被配置为提供用于所述网络结构设计开发的评估指标。

17.根据权利要求10所述的模型训练平台，还包括：

训练定制模块，被配置为基于所述输入来调整与模型训练相关联的操作。

18.根据权利要求17所述的模型训练平台，其中所述训练定制模块包括以下一项或多项：

定制训练流程模块，被配置为基于所述输入来调整与所述模型训练相关联的训练流程；

定制评估流程模块，被配置为基于所述输入来调整与所述模型训练相关联的评估流程；以及

可视化评估模块，被配置为基于所述输入来调整与所述模型训练相关联的可视化评估。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。