CN110751286A

CN110751286A - 神经网络模型的训练方法和训练系统

Info

Publication number: CN110751286A
Application number: CN201910618250.4A
Authority: CN
Inventors: 罗远飞; 涂威威; 曹睿; 陈雨强
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2019-07-10
Publication date: 2020-02-04
Anticipated expiration: 2039-07-10
Also published as: CN110751286B

Abstract

提供了一种神经网络模型的训练方法和训练系统。所述训练方法包括：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及利用训练样本的集合来训练神经网络模型，其中，在训练神经网络模型的过程中，针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果；基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建损失函数；以及根据所述损失函数来调整所述神经网络模型。

Description

神经网络模型的训练方法和训练系统

技术领域

本申请要求申请号为201810812243.3，申请日为2018年7月23日，名称为“神经网络模型的训练方法和训练系统”的中国专利申请的优先权。本申请涉及深度学习，更具体地讲，涉及深度学习中的神经网络模型的训练方法和训练系统。

背景技术

随着海量数据的出现，人工智能技术迅速发展。机器学习(包括深度学习)等是人工智能发展到一定阶段的必然产物，其致力于通过计算的手段，从大量数据中挖掘有价值的潜在信息。

例如，在深度学习领域所常使用的神经网络模型中，通常是通过将训练数据记录提供给神经网络模型来训练该神经网络模型以确定该神经网络模型的理想参数，而训练好的神经网络模型可被应用于在面对新的预测数据记录时提供相应的预测结果，例如，神经网络模型可被应用于图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景等等。

在现有的神经网络模型中，当利用训练样本来训练神经网络模型时，通常是在该模型的输出层得到预测结果y_pred，然后，可基于该神经网络模型的预测结果y_pred与训练样本的真实标记y_true(即，关于该神经网络模型的预测目标的真实结果)的取值，根据指定的损失函数来计算损失，然后反向传播(Backpropagation)，由此完成神经网络模型的参数更新。然而，随着神经网络模型层数增加，神经网络的性能可能难以如预期提高。

发明内容

根据本申请示例性实施例，提供了一种神经网络模型的训练方法，所述方法包括：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及利用训练样本的集合来训练神经网络模型，其中，在训练神经网络模型的过程中，针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果；基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数；以及根据所述模型损失函数来调整所述神经网络模型。

可选地，分别获得与其中每层的输出对应的层预测结果的步骤可包括：分别将所述每层的输出经过至少一次转换，以获得与所述每层对应的层预测结果。

可选地，可通过分别将所述每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。

可选地，层权重矩阵可以是在训练神经网络模型的过程中被学习出的。

可选地，基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数的步骤可包括：基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异来构建输出层损失函数，分别基于每个层预测结果与所述标记之间的层预测差异来构建所述每层的层损失函数，通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。

可选地，在训练神经网络模型的过程中，针对不同批次的训练样本，各个层损失函数的函数类型可被动态设置，并且/或者，针对不同批次的训练样本，主体神经网络结构之中的所述至少一部分层可被动态设置。

可选地，所述主体神经网络结构可包括除了神经网络模型的输出层之外的全部层，或者，所述主体神经网络结构可包括除了神经网络模型的输出层之外起主要预测作用的各个层。

可选地，所述神经网络模型用于预测图像类别、文本类别、语音情感、欺诈交易或广告点击率。

可选地，所述神经网络模型用于如下场景中的任一场景：

图像处理场景；

语音识别场景；

自然语言处理场景；

自动控制场景；

智能问答场景；

业务决策场景；

推荐业务场景；

搜索场景；

异常行为检测场景。

可选地，

所述图像处理场景包括：光学字符识别OCR、人脸识别、物体识别和图片分类；

所述语音识别场景包括：可通过语音进行人机交互的产品；

所述自然语音处理场景包括：审查文本、垃圾内容识别和文本分类；

所述自动控制场景包括：矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测；

所述智能问答场景包括：聊天机器人和智能客服；

所述业务决策场景包括：金融科技领域、医疗领域和市政领域的场景，其中，金融科技领域包括：营销与获客、反欺诈、反洗钱、承保和信用评分，医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断，市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障和智慧城市；

所述推荐业务场景包括：新闻、广告、音乐、咨询、视频和金融产品的推荐；

所述搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索；

所述异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测和操作日志中的异常行为检测。

根据本申请另一示例性实施例，提供了一种神经网络模型的训练系统，所述系统包括：数据获取装置，用于获取训练数据记录；样本生成装置，用于基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及训练装置，用于利用训练样本的集合来训练神经网络模型，其中，在训练神经网络模型的过程中，训练装置针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果，基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数，并且根据所述模型损失函数来调整所述神经网络模型。

可选地，训练装置分别获得与其中每层的输出对应的层预测结果的操作包括：分别将所述每层的输出经过至少一次转换，以获得与所述每层对应的层预测结果。

可选地，训练装置可通过分别将所述每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。

可选地，训练装置基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数的操作可包括：基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异来构建输出层损失函数，分别基于每个层预测结果与所述标记之间的层预测差异来构建所述每层的层损失函数，通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。

可选地，在训练装置训练神经网络模型的过程中，针对不同批次的训练样本，各个层损失函数的函数类型可被动态设置，并且/或者，针对不同批次的训练样本，主体神经网络结构之中的所述至少一部分层可被动态设置。

可选地，所述神经网络模型用于如下场景中的任一场景：

图像处理场景；

语音识别场景；

自然语言处理场景；

自动控制场景；

智能问答场景；

业务决策场景；

推荐业务场景；

搜索场景；

异常行为检测场景。

可选地，

所述语音识别场景包括：可通过语音进行人机交互的产品；

所述智能问答场景包括：聊天机器人和智能客服；

根据本申请另一示例性实施例，提供了一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行前述神经网络模型的训练方法的计算机程序。

根据本申请另一示例性实施例，提供了一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现前述神经网络模型的训练方法。

有益效果

通过应用根据本发明的示例性实施例的神经网络模型的训练方法和系统，能够在神经网络的每一层引入监督信息，构建逐层监督的深度神经网络，由此能够提高神经网络模型的模型效果。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本发明的示例性实施例的神经网络模型的训练系统。

图2是示出根据本发明的示例性实施例的神经网络模型的训练方法的流程图。

图3是示出根据本发明的示例性实施例的神经网络模型的示图。

在下文中，将结合附图详细描述本发明，贯穿附图，相同或相似的元件将用相同或相似的标号来指示。

具体实施方式

提供以下参照附图进行的描述，以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解，但这些细节被认为仅是示例性的。因此，本领域的普通技术人员将认识到：在不脱离本发明的范围和精神的情况下，可对这里描述的实施例进行各种改变和修改。此外，为了清楚和简明，可省略已知功能和构造的描述。

随着海量数据的出现，人工智能技术得到了迅速发展，机器学习(包括神经网络)是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。

而为了从大量数据中挖掘出价值，则要求相关人员不仅需要精通人工智能技术(特别是机器学习技术)，还需要非常熟悉应用机器学习技术的具体场景(例如，图像处理、语音处理、自动控制、金融业务、互联网广告等)。例如，若相关人员对业务了解不够，或建模经验不足，很容易导致较差的建模效果。目前可从两个方面缓解该现象，一是降低机器学习的门槛，使得机器学习算法易于上手；二是提高模型精度，使得算法通用性高，能够产生更好的结果。应理解，这两个方面并非对立，比如第二个方面中算法效果的提升，可以帮助第一点。此外，在期望利用神经网络模型进行相应的目标预测时，相关人员不仅需要熟悉关于神经网络的各种复杂技术细节，还需要理解所预测目标涉及的数据背后的业务逻辑，比如，如果想利用机器学习模型判别犯罪嫌疑犯，相关人员还必须理解哪些特性是犯罪嫌疑犯可能所具有的；如果想利用机器学习模型判别金融行业的欺诈交易，相关人员还必须了解金融行业的交易习惯以及一系列相应的专家规则等。上述种种都给机器学习技术的应用前景带来非常大的困难。

为此，技术人员希望通过技术的手段来解决上述问题，在有效提高神经网络模型效果的同时，降低模型训练和应用的门槛。在此过程中涉及诸多技术问题，例如，要想得到切实有效的模型，不仅要面对训练数据本身的不理想(例如，训练数据不足、训练数据存在缺失、训练数据稀疏、训练数据与预测数据的分布差异等)，还需要解决海量数据的运算效率问题。也就是说，现实中不可能依靠无限复杂的理想模型，利用完美的训练数据集来解决执行机器学习过程。作为针对预测目的的数据处理系统或方法，任何用于训练模型的方案或利用模型进行预测的方案均必须受制于客观存在的数据限制和运算资源限制，通过在计算机中利用特定的数据处理机制来解决上述技术问题。这些数据处理机制所依托的是计算机的处理能力、处理方式和处理数据，并非是纯粹的数学或统计计算。

图1是示出根据本发明的示例性实施例的神经网络模型的训练系统100。

需要说明的是，本发明实施例中的所述的神经网络模型可被用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等。所述神经网络模型旨在针对相关场景中的对象或事件有关的问题进行预测。例如，可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。

更进一步来说，本发明实施例中的神经网络模型可被用于的场景包括但不限于以下场景：

图像处理场景，包括：光学字符识别OCR、人脸识别、物体识别和图片分类；更具体地举例来说，OCR可应用于票据(如发票)识别、手写字识别等，人脸识别可应用安防等领域，物体识别可应用于自动驾驶场景中的交通标志识别，图片分类可应用于电商平台的“拍照购”、“找同款”等。

语音识别场景，包括可通过语音进行人机交互的产品，如手机的语音助手(如苹果手机的Siri)、智能音箱等；

自然语言处理场景，包括：审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)；

自动控制场景，包括：矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测；具体的对于矿井组可预测开采率高的一组调节操作，对于风力发电机组可预测发电效率高的一组调节操作，对于空调系统，可以预测满足需求的同时节省能耗的一组调节操作；

智能问答场景，包括：聊天机器人和智能客服；

业务决策场景，包括：金融科技领域、医疗领域和市政领域的场景，其中：

金融科技领域包括：营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测；

医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断；

市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)；

推荐业务场景，包括：新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐；

搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索等；

异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。

如图1中所示，所述训练系统100可包括数据获取装置110、样本生成装置120以及训练装置130。

所述数据获取装置110可用于获取训练数据记录。

在本发明的实施例中，所获取的训练数据记录根据神经网络模型的应用场景的不同而不同。例如，在图像处理的OCR场景中，所获取的数据记录是图像数据，数据记录的标记是图像中的文字；而在金融科技领域的反洗钱、反欺诈相关的场景中，所获取的训练数据是银行用户的交易流水数据以及该用户本身相关的数据，数据记录的标记是关于特定交易是洗钱或欺诈的标记。本领域的技术人员能够理解不同场景下的训练数据的不同。

即本领域的技术人员可以理解，当神经网络模型应用于某个特定场景时，该神经网络模型是基于该场景对应的训练样本数据集训练而得的。例如，对于商品价格预测，对应的训练样本数据集是该商品的历史数据(例如以商品历史上被售出时其自身的属性、季节、库存量等作为样本的特征，以被售出的价格作为标签)，相应地，商品价格预测场景下，预测数据由商品当前的相关信息构成，基于预测数据构造预测样本，例如以商品当前的自身属性、季节和库存量等作为预测样本的特征，将预测样本输入神经网络模型后得到模型输出的预测价格。其他场景类似，这里不再一一赘述。

这里，训练数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息，例如，身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者，这些数据也可涉及业务相关项目的属性信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。

作为示例，可获取不同来源的结构化或非结构化数据，例如，文本数据或数值数据等。这些数据可来源于期望获取模型预测结果的实体内部，例如，来源于期望获取预测结果的银行、企业、学校等；这些数据也可来源于上述实体以外，例如，来源于数据提供商、互联网(例如，社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地，上述内部数据和外部数据可组合使用，以形成携带更多信息的训练数据记录。

上述数据可通过输入装置输入到数据获取装置，或者由数据获取装置根据已有的数据来自动生成，或者可由数据获取装置从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于数据获取装置从外部数据源获取相应的数据。这里，获取的数据可被数据获取装置中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，数据获取装置可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

样本生成装置120可基于数据获取装置110获取的训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记。然后，训练装置130可基于样本生成装置120所生成的训练样本的集合来训练神经网络模型。

在下文中，结合图2和图3来详细说明所述训练系统100训练神经网络模型的处理。

参照图2，在步骤210，可通过数据获取装置110获取训练数据记录。在本发明的示例性实施例中，训练数据记录可以是用于训练神经网络模型的历史数据记录的集合，并且该历史数据记录具有关于神经网络模型的预测目标的真实结果y_true(即，标记(label))。

在步骤220，可由样本生成装置120基于在步骤210获取的训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记y_true作为训练样本的标记y_true。作为示例，样本生成装置120可对训练数据记录执行相应的特征工程处理，这里，样本生成装置120既可以将训练数据记录的某些属性字段直接作为相应的特征，也可通过对属性字段进行处理(包括字段本身或字段之间的各种运算等处理)来得到相应的特征。

然后，在步骤230，可由训练装置130基于训练样本的集合来训练神经网络模型。

在本发明的示例性实施例中，训练装置130可针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果。这里，主体神经网络结构不包括输出层，作为示例，所述主体神经网络结构可包括除了神经网络模型的输出层之外的全部层，或者所述主体神经网络结构可包括除了神经网络模型的输出层之外起主要预测作用的各个层。这里，根据本发明的示例性实施例，神经网络模型既可以是具有常见结构的普通神经网络，也可以是具有复杂结构(例如，多种模型的多层级结构)的复合神经网络。为此，可根据用户基于对模型算法、数据情况和/或模型应用场景的理解所做出的人为指定来确定主体神经网络结构(例如，神经网络模型的一部分层)，也可通过测试手段来确定神经网络中其主要预测作用的部分以作为主体神经网络结构。

此外，在本发明的示例性实施例中，训练装置130可通过分别将主体神经网络结构之中的至少一部分层中的每层的输出经过至少一次转换来获得与所述每层对应的层预测结果。仅作为示例，在转换过程中，训练装置130可通过分别将主体神经网络结构之中的至少一部分层中的每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。作为示例，上述层偏重矩阵和偏置项均可作为损失函数的参数以在训练过程中学习出参数值，或者，所述偏置项也可被设置为常数(甚至为0)而不必进行学习。

这里，根据实际情况，上述转换结果可直接作为层预测结果，也可作为激活函数的输入，并将激活函数的输出作为层预测结果。

具体地讲，仅作为示例，假设主体神经网络结构的第i个层(非输出层)的输出为大小为b×h_i的矩阵H_i(即，H_i∈

)，其中，b为批大小(batch size)，h_i为所述第i个层的网络神经元的数量，则与第i个层对应的层预测结果可以为y_i＝W_i ^TH_i+b_i或y_i＝f(W_i ^TH_i+b_i)，其中，f为激活函数(例如，sigmoid函数、tanh函数等)，参数W_i为h_i×1的层权重矩阵，参数b_i为1×1的偏置项，这里，作为特例，b_i可以为常数，甚至可以为0。

此外，尽管在此示出了第i个层(i为自然数)的输出H_i经过一次转换来获得层预测结果的方式，但本发明不限于此，所述第i个层的输出H_i还可经过多次转换。仅作为示例，可将第一次转换获得的结果(转换结果或转换结果经激活函数的输出结果)作为输入变量，再次执行第二次转换，以此类推，最终得到层预测结果y_i。此外，应注意的是，当进行多次转换时，每次转换中所使用的激活函数f类型及其参数(例如，层权重矩阵W_i和偏置项b_i)可相同或不相同，这里，通过将层预测结果也引入损失函数，使得层权重矩阵W_i以及偏置项b_i可以是在训练神经网络模型的过程中被学习出的。

在获得了主体神经网络结构的相应层的层预测结果之后，训练装置130可基于由神经网络模型的输出层所输出的预测结果y_out与训练样本的标记y_true之间的差异以及每个层预测结果与训练样本的标记y_true之间的层预测差异来构建模型损失函数，并且根据所述模型损失函数来调整所述神经网络模型。

以下将结合图3详细描述构建模型损失函数的处理。

图3是示出根据本发明的示例性实施例的神经网络模型300的示意图。

如图3所示，神经网络模型300可包括主体神经网络结构310以及输出层320，所述主体神经网络结构310可包括多个中间层h₀ 311和h₁ 312等，并且输出层h₂ 320的输出y_out即为神经网络模型300的预测结果。

参照图3，训练装置130可针对主体神经网络结构310的至少一个中间层h₀ 311和h₁312等分别获得与其对应的层预测结果，例如，针对中间层h₀311的层预测结果y₀和针对中间层h₁ 312的层预测结果y₁等。然后，可基于由神经网络模型300的输出层h₂ 320所输出的预测结果y_out与训练样本的标记y_true之间的差异以及各个层预测结果y₀和y₁等与所述标记y_true之间的层预测差异来构建模型损失函数L。

在本发明的示例性实施例中，可按照下述等式(1)来构建模型损失函数L：

L＝l_out(y_out,y_true)+w₀*l₀(y₀,y_true)+w₁*l₁(y₁,y_true)......(1)

其中，l_out表示输出层损失函数，l₀和l₁分别表示中间层h₀ 311和h₁ 312的层损失函数，w₀和w₁分别表示与中间层h₀ 311和h₁ 312对应的损失函数权重。即，可基于由神经网络模型的输出层所输出的预测结果与所述标记y_true之间的差异来构建输出层损失函数，分别基于每个层预测结果与所述标记y_true之间的层预测差异来构建所述每层的层损失函数，通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。

在本发明的示例性实施例中，w₀和w₁的值可按照预先指定的规则变化，例如，w₀和w₁的值可被预先设置为规则地变化(例如，在训练神经网络模型的过程中，按照每轮迭代来衰减)，或者也可以是在训练神经网络模型的过程中被学习出的(例如，通过专门的注意力(attention)机制网络被学习出的)。

此外，在本发明的示例性实施例中，在获得模型损失函数L之后，可通过梯度下降等方法来学习神经网络模型中可学习的各种变量，例如，层权重矩阵、偏置项、attention操作相关的权重等。仅作为示例，在上述学习过程中，可以求L对层权重矩阵W_i的导数，以此来更新W_i。

此外，在图3的示例中，示出了主体神经网络结构310包括两个中间层h₀ 311和h₁312，并且在计算损失函数L的过程中使用了针对中间层h₀ 311的预测结果y₀和针对中间层h₁ 312的预测结果y₁两者，但本发明不限于此，主体神经网络结构310可由于神经网络模型的具体结构而包括更多个中间层，并且当存在多个中间层时，可仅使用针对所述多个中间层中的一部分中间层的层预测结果。

可选地，在本发明的示例性实施例中，在训练装置130训练神经网络模型300的过程中，针对不同批次的训练样本，各个层损失函数的函数类型可被动态设置，并且/或者，针对不同批次的训练样本，主体神经网络结构310之中的参与上述损失计算过程的具体层也可被动态设置。

仅作为示例，在基于梯度下降系列算法来对模型进行优化时，l_out、l₀、l₁的形式可不同，从而进一步增加随机性，例如，l₀可以是cross entropy(交叉熵)损失函数，而l₁可以为hinge损失函数。如针对第一批训练样本只有l_out和l₀存在，而针对第二批训练样本三者均存在。作为示例，可通过以下方式来针对每批次数据选取层损失函数，例如，假设损失函数中总共涉及的层数量(包括输出层和各中间层)的个数为n，则可从特定分布(例如，如二项分布)中采样出由n个0或1组成的序列，将该序列和由输出层损失函数或各个层损失函数组成的损失函数相乘，则与0相乘的部分被舍弃，不计算其对应的损失。

以上已参照图1至图3描述了根据本发明的示例性实施例的神经网络模型的训练方法和系统本发明的示例性实施例。然而，应理解的是：图1至图3中所使用的装置、系统、单元等可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统、装置或单元等可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些系统、装置或单元等所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算可读介质上的程序来实现，例如，根据本申请的示例性实施例，可提供一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行以下方法步骤的计算机程序：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及利用训练样本的集合来训练神经网络模型，其中，在训练神经网络模型的过程中，针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果；基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建损失函数；以及根据所述损失函数来调整所述神经网络模型。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图2和图3进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本发明的示例性实施例的神经网络模型的训练方法和系统可完全依赖计算机程序的运行来实现相应的功能，即，各个单元或装置在计算机程序的功能架构中与各步骤相应，使得整个装置或系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1至图3所提及的各个单元或装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，实现根据本发明的示例性实施例的神经网络模型的训练方法的系统可包括一个或多个计算装置和一个或多个存储装置，其中，所述一个或多个存储装置上记录有指令，当所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置执行下述步骤：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及利用训练样本的集合来训练神经网络模型，其中，在训练神经网络模型的过程中，针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果；基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建损失函数；以及根据所述损失函数来调整所述神经网络模型。。

具体说来，上述系统设备可以部署在服务器中，也可以部署在分布式网络环境中的节点装置上。此外，所述系统设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。系统设备的所有组件可经由总线和/或网络而彼此连接。

这里，所述系统设备并非必须是单个装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述系统设备中，用于执行根据本发明的示例性实施例的神经网络模型的训练方法的计算装置可以是处理器，这样的处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，所述处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。处理器可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储装置中的文件。

应注意本发明示例性实施注重解决目前算法通用性低，精度不高的问题。具体说来，为了增加算法的易用与通用性，本发明示例性实施例的实施并未依赖于任何对具体业务逻辑的限定，而是集中精力在一个较通用的场景中。和大多现有的方案不同，本发明的示例性实施例不集中在一个具体场景上，而可应用于多种不同的场景，如推荐系统、广告系统等等。在本发明示例性实施例的基础上，建模人员可以继续加入自己的业务经验等，进一步提升效果。因此，本发明示例性实施例考虑的是应用场景的抽象，不针对某具体场景，却适用于各场景。

也就是说，根据本发明的示例性实施例，所述训练数据或预测数据可以是图像数据、语音数据、用于描述工程控制对象的数据、用于描述用户(或其行为)的数据、用于描述行政、商业、医疗、监管、金融等各个领域内的对象和/或事件的数据等，相应地，所述模型旨在针对与上述对象或事件有关的问题进行预测。例如，所述模型可用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。本发明的示例性实施例并不限制模型的预测目的所涉及的具体技术领域，但原因在于所述模型完全可适用于任何能够提供相应训练数据或预测数据的具体领域或场景，而绝不意味着所述模型无法适用于相关的技术领域。

更进一步来说，本申请中的神经网络模型可应用于的场景包括但不限于以下场景：图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景。上述各类场景下的更具体应用场景详见前面的描述。

因此，本申请的神经网络模型的训练方法和系统，也可以应用于上述的任一场景，并且本申请的神经网络模型的训练方法和系统以及预测方法和系统，在应用于不同的场景时，总体执行方案并无差别，只是在不同场景下针对的数据不同，因此本领域的技术人员基于前述的方案公开可以毫无障碍地将本申请的方案应用于不同的场景，因此不需要对每个场景一一进行说明。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种神经网络模型的训练方法，所述方法包括：

获取训练数据记录；

基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及

利用训练样本的集合来训练神经网络模型，

其中，在训练神经网络模型的过程中，

针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果；

基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数；以及

根据所述模型损失函数来调整所述神经网络模型。

2.如权利要求1所述的训练方法，其中，分别获得与其中每层的输出对应的层预测结果的步骤包括：分别将所述每层的输出经过至少一次转换，以获得与所述每层对应的层预测结果。

3.如权利要求2所述的训练方法，其中，通过分别将所述每层的层权重矩阵与所述每层的输出相乘并与相应的层偏置项相加来执行一次转换。

4.如权利要求3所述的训练方法，其中，

层权重矩阵是在训练神经网络模型的过程中被学习出的。

5.如权利要求1所述的训练方法，其中，基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数的步骤包括：

基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异来构建输出层损失函数，分别基于每个层预测结果与所述标记之间的层预测差异来构建所述每层的层损失函数，通过对输出层损失函数和各个层损失函数进行加权求和来构建所述模型损失函数。

6.如权利要求5所述的训练方法，其中，在训练神经网络模型的过程中，针对不同批次的训练样本，各个层损失函数的函数类型被动态设置，并且/或者，针对不同批次的训练样本，主体神经网络结构之中的所述至少一部分层被动态设置。

7.如权利要求1所述的训练方法，其中，

所述主体神经网络结构包括除了神经网络模型的输出层之外的全部层，

或者，

所述主体神经网络结构包括除了神经网络模型的输出层之外起主要预测作用的各个层。

8.一种神经网络模型的训练系统，所述系统包括：

数据获取装置，用于获取训练数据记录；

样本生成装置，用于基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及

训练装置，用于利用训练样本的集合来训练神经网络模型，

其中，在训练神经网络模型的过程中，训练装置针对神经网络模型之中的主体神经网络结构之中的至少一部分层，分别获得与其中每层的输出对应的层预测结果，基于由神经网络模型的输出层所输出的预测结果与所述标记之间的差异以及每个层预测结果与所述标记之间的层预测差异来构建模型损失函数，并且根据所述模型损失函数来调整所述神经网络模型。

9.一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行如权利要求1至7中的任一权利要求所述的方法的计算机程序。

10.一种包括一个或多个计算装置和一个或多个存储装置的系统，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1至7中的任一权利要求所述的方法。