CN106462801A

CN106462801A - 在分区训练数据上训练神经网络

Info

Publication number: CN106462801A
Application number: CN201580031864.2A
Authority: CN
Inventors: 伊利亚·苏特思科韦尔; 沃伊切赫·扎连芭
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-10-07
Filing date: 2015-10-06
Publication date: 2017-02-22
Also published as: WO2016057480A1; US20160098632A1; US10380482B2; EP3204896A1

Abstract

用于训练神经网络的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法中的一个包括：为所述神经网络获得分区训练数据，其中，所述分区训练数据包括多个训练项，所述多个训练项中的每一个被指派给多个分区中的相应一个，其中，每个分区与相应的难度级别相关联；以及从与最容易的难度级别相关联的分区到与最难的难度级别相关联的分区的序列上在所述分区中的每一个上训练所述神经网络，其中，针对所述分区中的每一个，训练所述神经网络包括：在训练项的序列上训练所述神经网络，所述训练项的序列包括散布有从所述全部分区中的所述训练项中选择的训练项的从所述分区中的所述训练项中所选择的训练项。

Description

在分区训练数据上训练神经网络

技术领域

本说明书涉及训练神经网络。

背景技术

神经网络是采用模型的一个或多个层来针对接收到的输入预测输出的机器学习模型。一些神经网络除包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一个隐藏层或输出层)的输入。网络的每个层依照相应的参数集合的当前值从接收到的输入生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地，递归神经网络能够在以当前时间步长计算输出时使用网络来自前一个时间步长的内部状态中的一些或全部。递归神经网络的示例是包括一个或多个LSTM记忆块的长短期(LSTM)神经网络。每个LSTM记忆块能够包括一个或多个单元，所述一个或多个单元各自包括输入门、遗忘门以及允许单元存储该单元的先前状态(例如，以用于在生成当前激活时使用或者要提供给LSTM神经网络的其它组件)的输出门。

发明内容

一般而言，本说明书中所描述的主题的一个创新方面能够用包括以下步骤的动作的方法加以具体化：为神经网络获得分区训练数据，其中，所述分区训练数据包括其中的每一个被指派给多个分区中的相应一个的多个训练项，其中，每个分区与相应的难度级别相关联；以及从与最容易的难度级别相关联的分区到与最难的难度级别相关联的分区顺次在所述分区中的每一个上训练所述神经网络，其中，针对所述分区中的每一个训练所述神经网络包括：在包括散布有从所述全部分区中的所述训练项中选择的训练项的从所述分区中的所述训练项中所选择的训练项的训练项的序列上训练所述神经网络。

这个方面和其它方面的其它实施方式包括对应的系统、装置以及编码在计算机存储装置上的被配置成执行所述方法的动作的计算机程序。一个或多个计算机的系统能够借助于在操作中使所述系统执行所述动作的安装在所述系统上的软件、固件、硬件或它们中的组合被如此配置。一个或多个计算机程序能够借助于具有指令被如此配置，所述指令当由数据处理设备执行时使所述设备执行所述动作。

能够实现本说明书中所描述的主题的特定实施例以便实现以下优点中的一个或多个。通过从最容易的分区开始并且以最难的分区结束顺次在已按难度级别分区的训练数据上训练神经网络，能够改进所述神经网络在被训练时的性能。特别地，针对给定分区，通过在包括从所述分区中的训练项中选择的训练项以及从所述全部分区中的训练项中选择的训练项的训练项序列上训练所述神经网络，相对于在仅包括来自所述分区的训练项或仅包括从所述全部分区中选择的训练项的序列上训练所述神经网络，能够改进所述神经网络在被训练时的性能。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。本主题的其它特征、方面和优点从本说明书、附图和权利要求书将变得显而易见。

附图说明

图1示出示例神经网络训练系统。

图2是用于在分区训练数据上训练神经网络的示例过程的流程图。

图3是用于在训练数据的分区上训练神经网络的示例过程的流程图。

各个附图中的相同的附图标记和名称指示相同的元件。

具体实施方式

图1示出示例神经网络训练系统100。神经网络训练系统100是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例，其中可以实现在下面所描述的系统、组件和技术。

神经网络训练系统100在来自分区训练数据储存库120的训练项上训练神经网络110以根据参数的初始值确定神经网络110的参数的训练值。神经网络110可以是前馈深度神经网络(例如，卷积神经网络)或递归神经网络(例如，长短期(LSTM)神经网络)。

神经网络110能够被配置成接收任何类型的数字数据输入并且基于该输入生成任何类型的分数或分类输出。

例如，在一些实施方式中，神经网络110是被配置成接收计算机程序的代码并且预测该计算机程序的输出的递归神经网络。

作为另一示例，如果神经网络110的输入是图像或已从图像中提取的特征，则由神经网络110针对给定图像所生成的输出可以是对象类别集合中的每一个的分数，其中每个分数表示图像包含属于该类别的对象的图像的估计可能性。

作为另一示例，如果神经网络110的输入是互联网资源(例如，web页面)、文档或文档的部分或者从互联网资源、文档或文档的部分中提取的特征，则由神经网络110针对给定互联网资源、文档或文档的一部分所生成的输出可以是话题集合中的每一个的分数，其中每个分数表示互联网资源、文档或文档部分是关于该话题的估计的可能性。

作为另一示例，如果神经网络110的输入是特定广告的印象上下文的特征，则由神经网络110所生成的输出可以是表示该特定广告将被点击的估计的可能性的分数。

作为另一示例，如果神经网络110的输入是针对用户的个性化推荐的特征(例如，表征推荐的上下文的特征，例如，表征由用户采取的先前动作的特征)，则由神经网络110所生成的输出可以是内容项集合中的每一个的分数，其中每个分数表示用户将赞成地对被推荐内容项做出响应的估计可能性。

作为另一示例，如果对神经网络110的输入是一种语言的文本的序列，则由神经网络110所生成的输出可以是针对另一种语言的文本片段集合中的每一个的分数，其中每个分数表示该另一种语言的文本片段是输入文本变成另一种语言的适当翻译的估计可能性。

作为另一示例，如果神经网络110的输入是表示口头语句的序列，则由神经网络110所生成的输出可以是针对文本的片段集合中的每一个的分数，每个分数表示该文本片段是语句的正确转录产物的估计可能性。

分区训练数据储存库120中的训练项被分割成多个分区，使得分区训练数据储存库120中的每个训练项被指派给多个分区中的相应一个。一般地，每个训练项是神经网络110被配置成接收的类型的输入。在神经网络110被以监督方式训练的实施方式中，每个训练输入与相应的已知输出(即，应该由神经网络110通过处理训练项而生成的输出)相关联。

分区中的每一个与相应的难度级别相关联。因此，给定分区中的每个训练项是已被指派了与该分区相关联的难度级别的训练项。一般地，对神经网络110来说，与针对已被指派了相对更容易的难度级别的训练项相比，针对已被指派了更难的难度级别的训练项而生成与训练项的已知输出匹配或者严格近似的输出是更难的任务，这是因为例如已被指派了更难的难度级别的训练项比已被指派了相对更容易的难度级别的训练项更复杂。

在一些实施方式中，训练项被分割并且难度级别由外部系统或者由用户(例如，系统管理员)指派。在一些其它实施方式中，神经网络训练系统100分割训练项并且指派难度级别。例如，在对神经网络110的输入是计算机程序代码片段的实施方式中，神经网络训练系统100能够基于代码中的值(例如，数值)的长度、基于存在于代码中的嵌套级别或者基于两者来确定给定代码片段的难度级别。

一般地，神经网络训练系统100采用按照难度级别增加排序的序列、从与最容易的难度级别相关联的分区开始、且以与最难的难度级别相关联的分区结束地，在分区训练数据储存库120中的全部分区分区上训练神经网络110。也就是说，神经网络训练系统100首先在序列中最容易的分区上、随后在序列中的第二分区上、随后在序列中的第三分区上等训练神经网络110。为在给定分区上训练神经网络110，神经网络训练系统100在训练输入序列上训练神经网络110，所述训练输入序列包括从给定分区中选择的训练输入以及从全部所述分区中选择的训练输入。在下面参考图3更详细地描述在给定分区上训练神经网络110。

图2是用于在分区训练数据上训练神经网络的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如，适当地编程的神经网络训练系统(例如，图1的神经网络训练系统100)能够执行过程200。

系统例如从图1的分区训练数据储存库120为神经网络获得分区训练数据(步骤202)。分区训练数据包括多个训练项，其中每个训练项被指派给来自分区集合中的相应分区。附加地，每个分区与相应的难度级别相关联。

系统从与最容易的难度级别相关联的分区到与最难的难度级别相关联的分区的顺序在所述分区中的每一个上训练神经网络(步骤204)。一般地，为了在分区上训练神经网络，系统在包括从散布有从全部分区中的训练项中选择的训练项的从所述分区的训练项中所选择的训练项的训练项序列上训练神经网络。在下面参考图3更详细地描述在给定分区上训练神经网络。

图3是用于在训练数据的分区上训练神经网络的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如，适当地编程的神经网络训练系统(例如，图1的神经网络训练系统100)能够执行过程300。

系统为该分区生成训练项的序列(步骤302)。特别地，系统生成包括从该分区中选择的训练项以及从全部分区中所选择的训练项的序列。例如，该序列能够在序列中包括以预定间隔散布的(例如，在每四个训练项、每五个训练项或每十个训练项处)的从全部分区的训练项中选择的训练项，同时其它训练项是从当前分区中选择的。然而，一般地，从当前分区中选择的训练项组成序列中的训练项的大多数。

系统通过从当前分区中随机选择训练项，选择在序列中从当前分区中选择的训练项。在一些实施方式中，系统通过从分区训练数据中的训练项当中随机选择训练项，选择在序列中从全部分区中所选择的训练项。在一些其它实施方式中，系统通过随机选择分区并且随后从随机选择的分区中的训练项中随机选择训练项来选择所述训练项。

系统在序列中的训练项上训练神经网络(步骤304)。也就是说，系统使用常规的机器学习训练技术来按照训练项出现在序列中的次序在序列中的训练项上训练神经网络以调整神经网络的参数的值。

例如，如果神经网络是前馈神经网络，则系统能够与反向传播训练技术一起使用常规的随机梯度下降来在给定训练项上训练神经网络。也就是说，系统能够使用神经网络来处理训练项以针对该训练项确定神经网络输出，确定该神经网络输出与针对该训练项的已知输出之间的误差，且随后使用该误差来与反向传播训练技术一起使用常规的随机梯度下降来调整神经网络的参数的值。

作为另一示例，如果神经网络是递归神经网络，则系统能够通过时间训练技术使用常规的反向传播来在给定训练项上训练神经网络。

当在序列中的训练项上训练神经网络时，系统确定神经网络的性能已停止改进(步骤306)，并且作为响应，制止进一步在该分区上训练神经网络，即，即使尚未在该序列中的全部训练项上训练神经网络(步骤308)。

当针对分区序列中的训练项的已知输出与由神经网络针对该训练项所生成的神经网络输出之间的误差度量的改变(例如，减小)变得比阈值值低时，系统确定神经网络的性能已停止改进。系统能够使用各种常规的神经网络训练误差度量中的任一个来测量此误差。

如果分区不是所述分区序列中的最后分区，则在确定神经网络的性能已停止改进之后，系统开始在所述分区序列中的下一个分区上训练神经网络。如果分区是序列中的最后分区，则系统可以终止神经网络的训练。如果在在分区上训练神经网络时神经网络的性能从未停止改进，则系统在该分区序列中的全部训练项上训练神经网络。

在一些实施方式中，不是响应于确定性能是否已停止改进而制止进一步在分区上训练，而是系统在分区上训练神经网络直到已在分区序列中的最后训练项上训练了神经网络为止。

本说明书中所描述的主题和功能操作的实施例能够用数字电子电路、用有形地体现的计算机软件或固件、用包括本说明书中所公开的结构及其结构等同物的计算机硬件、或者用它们中的一个或多个的组合来实现。本说明书中所描述的话题的实施例能够作为一个或多个计算机程序(即，在有形非暂时性程序载体上编码以用于由数据处理设备执行或者控制数据处理设备的操作的一个或多个计算机程序指令模块)被实现。替选地或附加地，可以将程序指令编码在为对信息进行编码以便发送到适合的接收器设备以由数据处理设备执行而生成的人工生成的传播信号(例如，机器生成的电、光学或电磁信号)上。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备，或它们中的一个或多个的组合。然而计算机存储介质不是传播信号。

术语“数据处理装置”包含用于处理数据的所有类型的装置、设备和机器，作为示例包括可编程处理器、计算机、或多个处理器或计算机。所述装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。所述装置除了包括硬件之外，还可以包括为所述的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其还也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言、或者描述性或过程语言)来编写，并且它可以被部署为任何形式(包括作为独立程序或者作为适合于在计算环境中使用的模块、组件、子例程或其它单元)。计算机程序可以但不必对应于文件系统中的文件。可以在保存其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中、或在多个协调文件(例如，存储一个或多个模块、子例程、或代码的部分的文件)中存储程序。可以将计算机程序部署成在一个计算机上或者在位于一个站点处多个计算机上、或在跨越多个站点分布并且通过通信网络互连的多个计算机上执行。

如本说明书中所使用的，“引擎”或“软件引擎”是指提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是功能性的编码块，诸如库、平台、软件开发套件(“SDK”)或对象。每个引擎可以被实现在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上，所述计算设备例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其它固定或便携式设备。附加地，所述引擎中的两个或更多个可以被实现在同一计算设备上或者在不同的计算设备上。

本说明书中所描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机来执行以通过对输入数据进行操作并且生成输出来执行功能。还可以由专用逻辑电路来执行过程和逻辑流，并且装置还可以被实现为专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))。

作为示例，适合于执行计算机程序的计算机可以基于通用微处理器或专用微处理器或两者，或任何其它类型的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于依照指令执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般地，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)或者与所述于一个或多个大容量存储设备操作地耦合，以从其接收数据或者向其转移数据或两者。然而，计算机不必具有所述设备。而且，可以将计算机嵌入在另一设备(例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器))等中。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质以及存储器设备，作为示例包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移除磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入专用逻辑电路。

为了提供与用户的交互，可以将本说明书中所描述的主题的实施例实现在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备(例如，鼠标或轨迹球)的计算机上。其它类型的设备也可以被用来提供与用户交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以包括声输入、语音输入或触觉输入的任何形式接收来自用户的输入。此外，计算机可以通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。

本说明书中所描述的主题的实施例可以被实现在包括后端组件的计算系统中(例如，作为数据服务器)，或者被实现在包括中间件组件的计算系统中(例如，应用服务器)，或者被实现在包括前端组件的计算系统中(例如，具有用户可以用来与本说明书中所描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机)，或可以被实现在包括一个或多个这种后端组件、中间件组件或前端组件的任何组合的计算系统中。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)(例如，互联网)。

计算系统可以包括客户端和服务器。客户端和服务器一般地彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多特定实施方式细节，但是这些不应该被解释为对任何发明的范围或可能要求保护的范围构成限制，而是相反被解释为可能对特定发明的特定实施例的而特有的特征的描述。在本说明书中在分离实施例的上下文中所描述的特定特征还可以在单个实施例中组合地实现。相反地，在单个实施例上下文下所描述的各种特征还可以分离地在多个实施例中或在任何适合的子组合中实现。另外，尽管特征可以被以上描述为在特定组合中行动并且因此甚至最初要求保护如此，但是来自要求保护的组合的一个或多个特征可以在一些情况下被从组合中删除，并且所要求保护的组合可以被导向子组合或子组合的变体。

类似地，虽然按特定次序在附图中描绘操作，但是这不应该被理解为为了实现所希望的结果，要求所述操作被以所示出的特定次序或以顺序次序执行，或者要求执行所有图示的操作。在特定情况下，多任务处理和并行处理可能是有利的。此外，在上面所描述的实施例中各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离，而应该理解的是，所描述的程序组件和系统通常可以被一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了本主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中所记载的动作可以按照不同次序被执行并且仍然实现所希望的结果。作为一个示例，附图中所描绘的过程未必要求所示出的特定次序或顺序次序以实现所希望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

Claims

1.一种用于训练神经网络的方法，所述方法包括：

获得所述神经网络的分区训练数据，其中，所述分区训练数据包括多个训练项，所述多个训练项中的每一个被指派给多个分区中的相应一个分区，其中，每个分区与相应的难度级别相关联；以及

按照从与最容易的难度级别相关联的分区到与最难的难度级别相关联的分区的顺序，在所述分区中的每一个分区上训练所述神经网络，其中，针对所述分区中的每一个分区，训练所述神经网络包括：

在训练项的序列上训练所述神经网络，所述训练项的序列包括从下述分区中的所述训练项中选择的训练项：该分区中散布有从全部所述分区中的所述训练项中选择的训练项。

2.根据权利要求1所述的方法，其中，从全部所述分区中的所述训练项中所选择的所述训练项以预定规律间隔散布在所述序列中。

3.根据权利要求1或2中的任一项所述的方法，其中，从所述分区中的所述训练项中所选择的所述训练项是所述序列中的所述训练项的大多数。

4.根据权利要求1至3中的任一项所述的方法，还包括，针对从全部所述分区中的所述训练项中所选择的训练项中的每一个：

从所述多个分区中随机选择分区；以及

从所随机选择的分区中随机选择所述训练项。

5.根据权利要求1至3中的任一项所述的方法，还包括，针对从全部所述分区中的所述训练项中所选择的训练项中的每一个，从所述多个训练项当中随机选择所述训练项。

6.根据权利要求1至5中的任一项所述的方法，还包括，针对从所述分区中的所述训练项中所选择的训练项中的每一个，从所述分区中的所述训练项中随机选择所述训练项。

7.根据权利要求1至6中的任一项所述的方法，其中，针对所述分区中的每一个分区，训练所述神经网络还包括：

确定所述神经网络的性能已停止改进；以及

制止进一步在所述分区上训练所述神经网络。

8.根据权利要求7所述的方法，其中，确定所述神经网络的所述性能已停止改进包括：确定所述训练的误差度量的减小已变得比阈值低。

9.根据权利要求1至8中的任一项所述的方法，其中，所述神经网络是递归神经网络。

10.根据权利要求9所述的方法，其中，所述递归神经网络是长短期(LSTM)神经网络。

11.根据权利要求9或10中的任一项所述的方法，其中，所述训练项中的每一个训练项是来自相应的计算机程序的代码序列，并且其中，所述递归神经网络被配置成处理所述代码序列并且输出所述计算机程序的预测输出。

12.根据权利要求11所述的方法，其中，获得所述神经网络的所述分区训练数据包括：

获得所述代码序列；以及

给所述代码序列中的每一个指派相应的难度级别。

13.根据权利要求12所述的方法，其中，所述难度级别至少部分地基于在所述代码中出现的值的长度。

14.根据权利要求12或13中的任一项所述的方法，其中，所述难度级别至少部分地基于在所述代码中出现的嵌套的级别。

15.一种包括一个或多个计算机以及存储指令的一个或多个存储装置的系统，所述指令当由所述一个或多个计算机执行时，可操作地使所述一个或多个计算机执行根据权利要求1至14中的任一项所述的相应方法的操作。

16.一种编码有指令的计算机存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至14中的任一项所述的相应方法的操作。