CN111656373A

CN111656373A - 训练神经网络模型

Info

Publication number: CN111656373A
Application number: CN201880088144.3A
Authority: CN
Inventors: D·马夫里厄杜斯; B·G·格布雷; S·特拉亚诺夫斯基
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-12-01
Filing date: 2018-11-30
Publication date: 2020-09-11
Also published as: WO2019106136A1; EP3493120A1; US20200372344A1; US11521064B2

Abstract

一种用于训练神经网络模型的构思。该构思包括接收训练数据和测试数据，所述训练数据和测试数据均包括一组注释图像。神经网络模型使用所述训练数据以初始正则化参数来训练。针对所述训练数据和所述测试数据两者的所述神经网络的损失函数用来修改正则化参数，并且所述神经网络模型使用经修改的正则化参数来再训练。该过程被迭代地重复直至所述损失函数两者都收敛。公开了采用该构思的系统、方法和计算机程序产品。

Description

训练神经网络模型

技术领域

本发明涉及训练神经网络模型，并且具体地涉及使用正则化技术来训练神经网络模型。

背景技术

人工神经网络(在本文中被称为“神经网络”)对于其在建模分析问题(诸如图像分析问题)中的使用是已知的。深度学习架构或深度神经网络是能够对更复杂的分析问题建模的一种具体类型的神经网络。

神经网络架构包括被布置在层中的多个单元，被称为人工神经元或简称为神经元，其被配置为模拟大脑的神经元。神经网络模型中的每个层可以对其输入执行不同的变换。神经网络中的神经元通过一个或多个连接或边缘被连接到一个或多个其他神经元。每个神经元或边缘可以具有相关联的权重(其可以被称为偏置)，其被应用于来自神经元的输出或被应用于从一个神经元到所连接的神经元的连接。权重能够利用神经网络的训练(例如使用训练数据)来更新。信号(例如数据)从神经网络的第一输入层行进到网络的最后输出层，并且可以穿过一个或多个中间“隐藏”层。利用训练，权重被更新使得神经网络的输出变得更接近预期的输出。

神经网络模型(并且具体地深度学习神经网络)中涉及的复杂性和大量参数增加了“过拟合”将会发生的可能性。当复杂模型对用来训练模型的数据中的较小波动反应过度时，过拟合发生。过拟合已经发生的模型的输出可能几乎没用或没用，并且可能导致需要再训练模型。

因此，需要降低过拟合发生的可能性的训练神经网络模型的改进的方式。

发明内容

根据第一方面，提出一种被配置用于训练神经网络模型的系统，包括：存储器，其包括表示指令集的指令数据；以及处理器，其被配置为与所述存储器通信并且执行所述指令集。当由所述处理器执行时，所述指令集令所述处理器接收包括第一组注释图像的训练数据；接收包括第二组注释图像的测试数据；使用所述训练数据基于初始正则化参数来训练所述神经网络模型；迭代地执行以下步骤：使用所述测试数据来测试经训练的神经网络模型，以确定经训练的神经网络模型的针对所述测试数据的损失函数；基于所述神经网络模型的针对所述训练数据的损失函数和所述神经网络模型的损失函数来调整所述初始正则化参数；使用所述训练数据基于经调整的正则化参数来再训练所述神经网络模型，其中，所述迭代的步骤被执行直至确定针对所述训练数据的所述损失函数和针对所述测试数据的所述损失函数都已经收敛到稳定状态。

通过基于针对训练数据和所述测试数据的所述损失函数调整所述正则化参数，能够关于经训练的神经网络是否正在遭受过拟合进行评价，由此使得对正则化参数的定向调整能够被进行。这由此使得更准确的神经网络能够被生成，并且神经网络的损失函数能够更有效地降低。

对正则化参数的调整被迭代地重复，针对测试数据和训练数据两者的损失函数已经收敛(例如已经被最小化)。这种收敛指示不再需要进一步训练，即神经网络基于可用的数据已经被优化。

训练数据和测试数据是不同的且彼此分开的，但是可以由更大注释图像数据集的不同部分形成。

在一些实施例中，所述正则化参数可以包括与所述神经网络模型中的神经元相关的dropout参数或与所述神经网络模型中的神经元之间的连接相关的dropconnect参数中的至少一项。

对正则化参数的调整可以基于损失函数在迭代之间的变化。在一些实施例中，正则化参数调整可以是基于损失函数在迭代之间的收敛。

对所述正则化参数进行的所述调整可以基于所述神经网络模型的针对所述训练数据的所述损失函数与所述神经网络模型的针对所述测试数据的所述损失函数之间的差或使用所述差来确定。换言之，可以进行神经网络模型的针对训练数据的损失函数与神经网络模型的针对测试数据的损失函数之间的比较，以便确定如何修改正则化参数。本发明已经意识到，这种比较能够实现对神经网络是否是过拟合和/或欠拟合的准确确定，并且能够由此用来指导对正则化参数的修改。

通过比较针对测试数据的损失函数与针对训练数据的损失函数，方法能够确保测试数据的差的损失函数是由于过拟合而非不正确训练的神经网络，由此更准确地确立过拟合是否已经发生并且由此正则化参数应该如何被改变。

令所述处理器调整所述正则化参数可以包括，当确定所述模型的所述损失函数针对所述测试数据比针对所述训练数据更高时，令所述处理器增加所述正则化参数。因此，实施例可以通过比较测试数据与训练数据并且(响应于针对测试数据的损失函数高于针对训练数据的损失函数)通过增加正则化参数来修改神经网络以考虑过拟合而针对过拟合进行测试。

在一些优选实施例中，令所述处理器调整可以包括，当确定所述模型的所述损失函数针对所述测试数据比针对所述训练数据更高并且所述损失函数已经针对所述训练数据最小化时，令所述处理器增加所述正则化参数。这有效地检查神经网络是否已经使用训练数据被完全训练，但是对于训练数据是过拟合的。以此方式，过拟合是否正在发生的更准确确定能够被执行。

在一些实施例中，令所述处理器调整所述正则化参数可以包括，当确定所述神经网络模型的所述损失函数针对所述训练数据比针对所述测试数据更高时，令所述处理器减小所述正则化参数。

在一些实施例中，令所述处理器调整正则化参数包括，当确定所述神经网络的针对所述训练数据的所述损失函数类似于针对所述测试数据的所述损失函数(例如在彼此的预定范围内，诸如±1％或±5％)时，令所述处理器减小所述正则化参数。具体地，可以确定针对测试数据的损失函数是否位于针对训练数据的损失函数的预定范围(例如±1％或±5％)内，并且确定响应于肯定确定而减小正则化参数。因此，可以关于神经网络是否已经在没有过拟合的情况下被训练进行评价，由此使得处理器能够减小正则化参数以实现对神经网络的进一步训练。如果针对测试数据的损失函数小于针对训练数据的损失函数，正则化参数也可以被减小(因为这将会指示欠拟合正在发生)。

在进一步的实施例中，当确定模型的损失函数针对测试数据比针对训练数据更高时令处理器增加正则化参数的步骤被修改，使得只有当模型的针对测试数据的损失函数高于用于确定针对训练数据的损失函数的相似性的预定范围的上限(例如多于针对训练数据的损失函数的值的105％或多于针对训练数据的损失函数的值的101％)时，增加正则化参数的步骤才发生。

训练神经网络模型可以包括，使用所述训练数据迭代地训练所述神经网络模型直至所述神经网络模型的针对所述训练数据的损失函数收敛到稳定状态。因此，在实施例中，只有当神经网络已经被训练到收敛时，才可以修改正则化参数。这改善了神经网络的准确性。

在一些实施例中，令所述处理器再训练所述神经网络模型可以包括，令所述处理器基于前次迭代期间的所述模型的一个或多个层中的神经元的权重来设置所述神经元的权重。

当由所述处理器执行时，所述指令集可以还令所述处理器在确定所述损失函数针对所述训练数据和所述测试数据被最小化时结束所述神经网络模型的训练。

在一些实施例中，当所述损失函数在随后的迭代之间改变小于限定量时，所述模型的所述损失函数可以被认为已经收敛到稳定状态。

在一些实施例中，所述训练数据和所述测试数据可以包括利用以下中的至少一项注释的图像：所述图像中的对象的存在的指示；以及所述图像中的对象的位置的指示。在一些实施例中，所述训练数据和所述测试数据可以包括医学图像。

所述正则化参数可以限定要在训练期间从所述神经网络模型的具体层暂时排除的神经元或神经元之间的连接的比例。

根据第二方面，一种训练神经网络模型的方法包括，接收包括第一组注释图像的训练数据；使用所述训练数据基于初始正则化参数来训练所述神经网络模型；以及迭代地执行以下步骤：使用所述测试数据来测试经训练的神经网络模型，以确定经训练的神经网络模型的针对所述测试数据的损失函数；基于所述神经网络模型的针对所述训练数据的损失函数和所述神经网络模型的损失函数来调整所述初始正则化参数；使用所述训练数据基于经调整的正则化参数来再训练所述神经网络模型，其中，所述迭代的步骤被执行直至确定针对所述训练数据的所述损失函数和针对所述测试数据的所述损失函数都已经收敛到稳定状态。

根据第三方面，一种计算机程序产品包括非瞬态计算机可读介质，所述计算机可读介质具有被实施在其中的计算机可读代码，所述计算机可读代码被配置为使得，在由合适的计算机或处理器执行时，令所述计算机或处理器执行本文中公开的方法。

参考下文所述的实施例，本发明的这些方面和其他方面将是显而易见的并且得到阐明。

附图说明

为了更好地理解本发明并且为了更清楚地示出它可以如何被实施，现在将会仅以范例的方式参照附图，在附图中：

图1A是神经网络的范例的简化示意图；

图1B是在dropout参数被应用的情况下的图1A的神经网络的简化示意图；

图2A是神经网络的范例的简化示意图；

图2B是在dropconnect参数被应用的情况下的图2A的神经网络的简化示意图；

图3是用于训练神经网络模型的系统范例的简化示意图；

图4是包括支架的医学图像的范例；

图5是训练神经网络模型的方法的范例的流程图；以及

图6是计算机可读介质和处理器的范例的简化示意图。

具体实施方式

人工神经网络或简称神经网络对本领域技术人员来说将会是熟悉的，但简言之，神经网络是能够用来对数据进行分类(例如，对图像数据的内容进行分类或识别)的一种类型的模型。神经网络的结构受人脑启发。神经网络包括多个层，每个层包括多个神经元。每个神经元包括数学运算。在对一部分数据进行分类的过程中，对该部分数据执行每个神经元的数学运算以产生数值输出，并且神经网络中的每个层的输出随后被馈送到下一层内。一般地，与每个神经元相关联的数学运算包括在训练过程期间被调谐的一个或多个权重(例如权重的值在训练过程期间被更新以调谐模型从而产生更准确的分类)。

例如，在用于对图像的内容进行分类的神经网络模型中，神经网络中的每个神经元可以包括数学运算，所述数学运算包括紧随有非线性变换的图像中的像素(或以三维方式的体素)值的加权线性和。在神经网络中使用的非线性变换的范例包括sigmoid函数、双曲正切函数和线性修正函数。神经网络的每个层中的神经元一般包括单种类型的变换的不同加权组合(例如相同类型的变换、sigmoid等，但是具有不同的权重)。如对于本领域技术人员来说将会是熟悉的，在一些层中，相同的权重可以被每个神经元应用在线性和中；这例如应用在卷积层的情况下。与每个神经元相关联的权重可以使特定特征在分类过程中比其他特征更突出(或相反更不突出)，并且因此在训练过程中调整神经元的权重训练神经网络在对图像进行分类时将增加的显著性置于具体特征上。一般地，神经网络可以具有与神经元相关联的权重和/或在神经元之间的权重(例如其修改在神经元之间经过的数据值)。

如上面简要地提及的，在一些神经网络(诸如卷积神经网络)，诸如神经网络中的输入或隐藏层的更低层(即朝向神经网络中的层系列的开始的层)被正被分类的数据部分中的小特征或图案激活(即其输出依赖于正被分类的数据部分中的小特征或图案)，而更高层(即朝向神经网络中的层系列的结束的层)被正被分类的数据部分中的越来越大的特征激活。作为一范例，其中，数据包括图像，神经网络中的更低层被小特征激活(例如图像中的边缘图案)，中级层被图像中的特征(例如，更大的形状和形式)激活，而最接近输出的层(例如更上层)被图像中的整个对象激活。

一般来说，神经网络模型的最终层(被称为输出层)中的神经元的权重最强烈地依赖于正通过神经网络被求解的具体分类问题。例如，外层的权重可以高度地依赖于分类问题是定位问题还是检测问题。更低层(例如输入和/或隐藏层)的权重倾向于依赖于正被分类的数据的内容(例如特征)，并且因此在本文中已经意识到，处理相同类型的数据的神经网络的输入和隐藏层中的权重可以利用充分的训练而随着时间朝向相同值收敛，即使模型的外层被调谐以解决不同的分类问题。

如上面提及的，能够影响神经网络的问题是过拟合。可以用来降低神经网络模型中的过拟合的技术是应用正则化技术，诸如“dropout”或“dropconnect”。Dropout指的是神经网络模型的一些神经元或单元针对使用训练数据的模型的训练的部分而被忽视或排除的正则化技术。Dropconnect指的是神经网络模型中的神经元之间的一些连接针对使用训练数据的模型的训练的部分而被忽视或排除的正则化技术。忽视神经元或神经元之间中的一些迫使神经网络学习相同数据的多种独立表示。Dropout和/或dropconnect帮助神经网络更好地概括，并且有助于避免模型发展出对神经网络中的(可能主要的)单个神经元或连接(即边缘)的依赖。

在一些范例中，神经元或边缘可以通过暂时将神经元的或边缘的相关联的权重设置为零而被忽视。

在一些情况下，正则化(例如dropout或dropconnect)可以涉及忽视或排除来自神经网络模型中的单个层的神经元(或忽视或排除两个相邻层中的神经元之间的连接)，而在其他情况下，可以排除来自多个层的神经元(或多个相邻层之间的连接)。不是具体层中的所有神经元或连接都需要在模型的训练期间(例如在训练过程的每个步骤期间，每个步骤可以包括训练数据的总集合的随机批次)被排除。被暂时忽视(即在训练的步骤期间被省略或“放弃”)的具体层中的神经元或连接的比例可以通过正则化参数来限定，其范围可以从0到1，其中，0表示神经元或连接中没有一个被排除的情况，而1表示层中的所有神经元或连接都被排除的情况。例如，0.5的正则化参数表示具体层中的一半神经元或连接被暂时排除的情况。因此，正则化参数限定要在训练期间从神经网络模型的具体层暂时排除的神经元或神经元之间的连接的比例。在一些情况下，唯一的正则化参数可以被应用于每个个体神经元或连接。在一些情况下，单个正则化参数可以被应用于神经元或连接的一小组或子集。在一些情况下，单个正则化参数可以被应用于具体层中的所有神经元或两个相邻层之间的所有连接。在一些情况下，单个正则化参数可以被应用于神经网络中的所有神经元或连接。

层中排除的神经元或连接可以被随机地选择，或可以被预先定义。当dropout正则化技术被应用时，正则化参数可以被称为dropout参数，并且当dropconnect正则化技术被应用时，正则化参数可以被称为dropconnect参数。

其他正则化参数将会被本领域技术人员意识到，诸如学习速率、激活层的数量等等。在一些范例中，正则化参数可以限定神经网络的优化器(即用来在训练过程期间修改神经网络的优化器)。

神经网络的性能质量可以通过损失函数(也被称为成本函数)来限定。损失函数是具体解(例如具有神经元权重的具体组合的模型)相距正被求解的问题的最佳解有多远的量度。当模型返回最佳解时，用于神经网络模型的损失函数(或损失函数值)能够被称为被最小化。在一些范例中，最小化的损失函数可以具有零的值。当神经网络使用训练数据来训练时，神经元和/或连接神经元的边缘的权重被调整以试图令损失函数收敛到最佳值(即对应于最佳解的值)。

发明人已经发现，正则化技术能够通过偏置损失函数上的正则化参数的调整(即被忽视的神经元或连接的比例在神经网络模型的训练期间被改变的方式)来改善。更具体地，已经发现，神经网络模型的准确性能够通过基于针对训练数据的损失函数和针对测试数据(其不被用来训练神经网络，而是测试其有效性)的损失函数改变正则化参数来改善。

因此，提出了一种用于训练神经网络模型的构思。该构思包括接收训练数据和测试数据，所述收训练数据和测试数据均包括一组注释图像。神经网络模型使用训练数据以初始正则化参数来训练。用于训练数据和测试数据两者的神经网络的损失函数用来修改正则化参数，并且神经网络模型使用经修改的正则化参数来再训练。该过程被迭代地重复直至损失函数都收敛。公开了采用该构思的系统、方法和计算机程序产品。

在图1和2中分别示出了dropout和dropconnect作为正则化技术的使用的范例。

图1是神经网络100、100’的两个范例的简化示意图。图1A示出了没有dropout(即神经元中没有一个被忽视)的神经网络100，并且图1B示出了具有在0.4和0.6之间的用于个体层的dropout参数的神经网络100’。在图1A中，神经网络100包括被布置在层中的多个神经元102。输入层104中的神经元102通过边缘106被连接到第一中间层108中的神经元102。第一中间层108中的神经元102通过边缘110被连接到第二中间层112中的神经元102。第二中间层110中的神经元102通过边缘114被连接到输出层116中的神经元。图1A中表示的神经网络能够被认为具有零的dropout参数，使得神经元中没有一个被忽视或排除。

在图1B的神经网络100’中，各种神经元118被排除或忽视。在所示出的范例中，0.4的dropout参数已经被应用于输入层104，由此令两个随机选择的神经元118在训练期间被暂时忽视(由神经元中的叉号来表示)。在第一中间层108中，0.6的dropout参数已经被应用，由此令三个随机选择的神经元118在训练期间被暂时忽视。在第二中间层112中，0.4的dropout参数已经被应用，由此令两个随机选择的神经元118在训练期间被暂时忽视。由于dropout参数已经被应用，更少的神经元102激活，导致训练期间的更少激活(即来自神经元的输出)。

图1展示了dropout(即在训练期间暂时放弃来自神经网络的神经元)，而图2展示了dropconnect，其中，神经元保持使用，但是相邻层中的神经元之间一些相互连接在训练期间被暂时放弃和忽视。

图2是神经网络200，200’的两个范例的简化示意图。图2A示出了与神经网络100相同的神经网络200，其中，连接中没有一个被忽视，并且图2B示出了第一中间层108与第二中间层112之间的一些连接110被忽视的神经网络200’。为了清楚，在图2B中未示出所忽视的连接。在该范例中，输入层104与第一中间层108之间的连接106中没有一个被忽视。因此，在图2B的范例中，输入层104与第一中间层108之间的连接106能够被认为具有零的dropconnect参数，而第一中间层108与第二中间层112之间的连接110能够被认为具有0.64的dropconnect参数，使得十六个随机选择的连接在训练期间被暂时忽视。由于dropconnect参数已经被应用，更少的连接110激活，导致训练期间的第二中间层112中的神经元的更少激活(即输出)。

如上面提及的，正则化参数可以在逐层的基础上被应用，使得每个层(或具体相邻层对之间的连接)可以具有不同的正则化参数，或在网络范围的基础上被应用，使得单个正则化参数被应用于整个神经网络，并且要被暂时忽视的神经元和/或连接/边缘从网络中的任何(一个或多个)层中随机地选择。

现在参考图3，其示出了根据实施例的能够被用于训练神经网络模型的系统300的方框图。参考图3，系统300包括控制系统300的操作并且能够实施本文中描述的方法的处理器302。

系统300还包括存储器306，存储器306包括表示指令集的指令数据。存储器306可以被配置为以能够由处理器302执行以执行本文中描述的方法的程序代码的形式存储指令数据。在一些实施方式中，指令数据能够包括均被配置为执行或是用于执行本文中描述的方法的个体或多个步骤的多个软件和/或硬件模块。在一些实施例中，存储器306可以是还包括系统300的一个或多个其他部件(例如，系统300的处理器302和/或一个或多个其他部件)的设备的部分。在备选实施例中，存储器306可以是到系统300的其他部件的单独设备的部分。

在一些实施例中，存储器306可以包括多个子存储器，每个子存储器能够存储一条指令数据。在存储器306包括多个子存储器的一些实施例中，表示指令集的指令数据可以被存储在单个子存储器处。在存储器306包括多个子存储器的其他实施例中，表示指令集的指令数据可以被存储在多个子存储器处。例如，至少一个子存储器可以存储表示指令集的至少一个指令的指令数据，而至少一个其他子存储器可以存储表示指令集的至少一个其他指令的指令数据。因此，根据一些实施例，表示不同指令的指令数据可以被存储在系统300中的一个或多个不同位置处。在一些实施例中，存储器306可以用来存储由系统300的处理器302采集或产生或来自系统300的任何其他部件的信息、数据(例如图像)、信号和测量。

系统300的处理器302能够被配置为与存储器306通信以执行指令集。当由处理器302执行时，指令集可以令处理器302执行本文中描述的方法。处理器302能够包括被配置或编程为以本文中描述的方式控制系统300的一个或多个处理器、处理单元、多核处理器和/或模块。在一些实施方式中，例如，处理器302可以包括被配置用于分布式处理的多个(例如，互操作的)处理器、处理单元、多核处理器和/或模块。本领域技术人员应意识到，此类处理器、处理单元、多核处理器和/或模块可以位于不同的位置中，并且可以执行本文中描述的方法的不同步骤和/或单个步骤的不同部分。

再次返回到图3，在一些实施例中，系统300可以包括至少一个用户接口304。在一些实施例中，用户接口304可以是还包括系统300的一个或多个其他部件(例如，系统300的处理器302、存储器306和/或一个或多个其他部件)的设备的部分。在备选实施例中，用户接口304可以是到系统300的其他部件的单独设备的部分。

用户接口304可以用于在为系统300的用户(例如，诸如医学研究者的研究者、医学专业人员或神经网络模型的任何其他用户)提供由根据本文中的实施例的方法产生的信息中使用。当由处理器302执行时，指令集可以令处理器302控制一个或多个用户接口304提供由根据本文中的实施例的方法产生的信息。备选地或额外地，用户接口304可以被配置为接收用户输入。换言之，用户接口304可以允许系统300的用户手动地键入指令、数据或信息。当由处理器302执行时，指令集可以令处理器302从一个或多个用户接口304采集用户输入。

用户接口304可以是使得能够为系统300的用户绘制(或输出或显示)信息、数据或信号的任何用户接口。备选地或额外地，用户接口304可以是使得系统300的用户能够提供用户输入、与系统300交互和/或控制系统300的任何用户接口。例如，用户接口304可以包括一个或多个开关、一个或多个按钮、键区、键盘、鼠标、鼠标滚轮、(例如，平板电脑或智能手机上的)触摸屏或应用、显示屏、图形用户接口(GUI)或其他视觉绘制部件、一个或多个扬声器、一个或多个麦克风或任何其他音频部件、一个或多个灯、用于提供触觉反馈(例如振动功能)的部件、或任何其他用户接口、或用户接口的组合。

在一些实施例中，如图3中图示的，系统300还可以包括用于使得系统300能够与为系统300的部分的接口、存储器和/或设备通信的通信接口(或电路)308。通信接口308可以无线地或经由有线连接与任何接口、存储器和设备通信。

应意识到，图3仅示出了图示本公开的该方面所需的部件，并且在实际的实施方式中，系统300可以包括除了所示出的那些之外的部件。例如，系统300可以包括用于为系统300提供电力的电池或其他电源、或用于将系统300连接到主电源的器件。

系统300是用于训练神经网络模型的，并且利用正则化参数来降低通过模型的过拟合的可能性和/或影响。简言之，系统300被配置用于训练神经网络模型，并且包括存储器306，存储器306包括表示指令集的指令数据；以及处理器302，处理器302被配置为与存储器306通信并且执行指令集。当由处理器302执行时，指令集令处理器302接收包括第一组注释图像的训练数据，接收包括第二组注释图像的测试数据，使用训练数据基于初始正则化参数来训练神经网络模型，并且迭代地执行修改过程。修改过程包括使用测试数据来测试经训练的神经网络模型以确定经训练的神经网络模型的针对测试数据的损失函数；基于神经网络模型的针对训练数据的损失函数和神经网络模型的损失函数来调整初始正则化参数；以及使用训练数据基于经调整的正则化参数再训练神经网络模型。修改过程被执行直至确定针对训练数据的损失函数和针对测试数据的损失函数都已经收敛到稳定状态。

这种系统基于以下认识：基于训练数据和测试数据的损失函数之间的比较调整正则化参数使得过拟合是否已经发生的确定能够被执行。因此，能够依据神经网络是过拟合还是欠拟合的确定进行对正则化参数的修改。

一般地，神经网络模型可以包括前馈模型(诸如卷积神经网络、自编码器神经网络模型、概率神经网络模型和时延神经网络模型)、径向基函数网络模型、递归神经网络模型(诸如完全递归模型、Hopfield模型、或Boltzmann机器模型)，或任何其他类型的包括权重的神经网络模型。

模型可以用来对数据进行分类。数据可以是任何类型的数据，诸如包括图像的数据(例如图像数据)、包括文本的数据(诸如文件或记录)、音频数据、或能够通过神经网络模型被分类的任何其他类型的数据。在一些实施例中，数据包括医学数据，诸如医学图像(例如X射线图像、超声图像等)或医学记录。

在一些实施例中，模型可以被训练为产生针对数据的一个或多个分类(例如标签)。在一些实施例中，模型可以用来对具体解剖结构(诸如血管系统、心脏或任何其他解剖结构)的医学成像数据进行分类。

在一些实施例中，模型可以用来检测图像中的对象的存在。在其他实施例中，模型可以用来识别图像中的对象的位置。在图4中示出了包括支架的范例图像，其示出了支架400，支架的每一端通过两个球囊标记402和404来进行标记。在一些实施例中，模型可以被训练为处理图像(诸如图4中示出的图像)，并且产生指示支架是否存在于医学图像中的输出(例如支架检测模型)。在该实施例中，模型的输出层可以具有适合于二值输出的两个神经元，例如，第一模型可以输出支架存在于图像中或支架未存在于图像中。

在其他实施例中，模型可以被训练为处理数据(诸如图4中示出的数据)而非检测支架的存在，模型可以被训练为产生不同的输出。在图4中还示出了边界方框406，指示支架400的范围。在一些实施例中，模型的输出层可以包括四个神经元，第一对对应于包围支架的边界方框406的中心的x-y坐标，并且第二对对应于边界方框的宽度和高度。以此方式，支架400的位置能够针对每幅医学图像被输出。应意识到，然而，这些仅仅是范例，并且模型的输出层可以包括产生不同输出的其他数量的神经元。例如，代替产生边界方框(例如方框406)的坐标和尺寸，模型可以被训练为输出支架的一端或两端(例如球囊标记402、404)在图像中的x、y坐标。

再次参考图3，如上面提及的，当由处理器302执行时，指令集令处理器接收包括第一组注释图像的训练数据。训练数据可以例如包括具有注释(例如标记)的多幅图像(诸如医学图像)，所述注释(例如标记)被标记在图像上或要不然被包括在与所述多幅图像相关联的图像数据中。如在上面给出的范例中，注释可以包括图像中的对象(例如支架)的存在(或不存在)的指示、或图像中的对象的位置(边界方框的x、y坐标和/或尺寸)。被包括在训练数据的图像中的注释可以例如由已经检查图像并且指示图像中的具体对象的存在和/或位置的医学专业人员创建或提供。

如对熟悉神经网络的那些人将会显而易见的，神经网络的一个或多个层中的神经元的权重可以基于训练数据来调整。为了降低过拟合的影响，初始正则化参数可以被应用于神经网络模型。如上面提及的，正则化参数可以包括与神经网络模型中的神经元相关的dropout参数或与神经网络模型中的神经元之间的连接相关的dropconnect参数中的至少一个。在一些实施例中，正则化参数可以包括dropout和dropconnect参数的组合，使得在训练期间一些神经元被忽视并且神经元之间的一些连接被忽视。

初始正则化参数可以被任意地选择。在一些实施例中，初始正则化参数可以是给定的预定值，诸如0.5。0.5的值令神经元或连接的50％被暂时忽视。通过“暂时地”，意味着当正则化参数被改变到不同的值时被忽视的神经元或连接的比例将会改变。如果正则化值被设置为0，那么没有神经元或连接将会被忽视。在一些实施例中，正则化参数可以在一个代之后(即在所有训练数据都已经被馈送到神经网络内一次之后)被改变。在其他实施例中，当总训练数据的批次(例如即16、32、64、128或256项的子集)已经被馈送到神经网络内时(即当训练的步骤已经被完成时)，正则化参数可以被改变。

如上面提及的，训练神经网络模型涉及当训练数据被呈现给模型时并且当模型从训练数据“学习”时更新模型中的神经元的权重。因此，在一些实施例中，令处理器302再训练神经网络模型可以包括令处理器基于前次迭代期间的模型的一个或多个层中的神经元的权重设置所述神经元的权重。

在一定量的训练之后(例如在一定量的训练数据已经被呈现给模型，诸如多代，之后或在损失函数收敛到稳定状态之后)，正则化参数被调整，并且神经网络模型利用经调整的正则化参数(即利用模型中的被忽视的神经元或连接的不同比例)被再训练或被进一步地训练。调整正则化参数并且再训练模型的这种循环可以被重复，并且以此方式，正则化参数的调整被称为是迭代性的。再训练神经网络模型可以涉及将已经用来训练模型的训练数据呈现给模型。然而，利用不同的正则化参数，神经元和/或连接的不同组合在模型中激活，并且因此，即使当相同组训练数据被呈现，模型的训练也可以被改善。利用经调整的dropout参数的神经网络模型的再训练可以被认为是精调过程，由此(例如通过更新模型的权重的)模型的正常训练由于改变的正则化参数而被改善。

随着训练进行并且神经网络中的神经元的权重被更新，模型的损失函数(也被称为成本函数)可以降低。模型的损失函数量化模型多准确地执行。例如，在被用于对象定位的神经网络模型(例如用来确定医学图像中的对象的位置的模型)中，当模型在训练的早期阶段中时，损失函数可以最初是相对高的(例如对象的位置可以准确至在大约20个像素内)。随着模型的训练进行，损失函数可以改善(即降低)，因为对象的位置通过模型被更准确地确定(例如准确至在大约5个像素内)。模型的准确性可以到达最大值，此时，模型的进一步训练不可能进一步改善模型的准确性，并且损失函数不能进一步降低。在该阶段处，损失函数被视为已经收敛或最小化。应意识到，模型的最大准确性不能构成100％的准确性，但是可以构成考虑神经网络模型的参数和可用的训练数据为最好可获得准确性的准确性。

如上面提及的，当由处理器302执行时，指令集还令处理器接收包括第二组图像的测试数据；以及使用测试数据来测试神经网络模型。测试数据可以例如包括与训练数据中的第一组图像不同的第二组图像。与测试数据(其也可以被称为留出数据)相关联的损失函数和与训练数据相关联的损失函数一起用来确定如何改变神经网络模型的参数(诸如正则化参数)。例如，当经训练的神经网络使用测试数据来测试时(即当第二组图像在测试阶段中被呈现给神经网络模型时)，线搜索技术可以用来识别导致模型的最小损失函数的正则化参数(即最小化损失函数的正则化参数)。在一些范例中，增加或减小正则化参数的量可以基于探索法来确定。如下面解释的，对正则化参数的改变可以通过将参数乘以一些常数(即大于1以增加参数，而小于1以减小参数)来实施。因此，对正则化参数进行的调整可以基于测试神经网络的迭代之间的损失函数的变化。

在再训练神经网络模型的迭代之间如何改变正则化参数的选择可以基于模型的损失函数(针对训练数据和测试数据)如何改变来进行。在一些实施例中，令处理器302调整正则化参数可以包括，当确定模型的损失函数针对测试数据比针对训练数据更高并且损失函数已经针对训练数据最小化或收敛时，令处理器增加正则化参数。如果模型的针对训练数据的损失函数已经最小化(即收敛到最佳值)但是针对测试数据的损失函数是相对更高的，那么这可以是过拟合的迹象。因此，在这种情况下增加正则化参数可以有助于阻止模型过拟合数据。正则化参数被增加的量可以基于从将测试数据呈现给神经网络模型而看出的结果。在一些实施例中，正则化参数可以被增加因子α(即α乘以当前正则化参数)，其中，α>1(但不至于大到使正则化参数大于1)。当然，这种调整将会导致增加数量的神经元或连接在训练模型的下一迭代中被暂时忽视。神经网络模型然后使用增加的正则化参数被再训练。

在一些实施例中，令处理器302调整正则化参数可以包括，当针对训练数据的损失函数大于或等于针对测试数据的损失函数时，令处理器减小正则化参数。这可以指示神经网络欠拟合。

在一些实施例中，令处理器调整正则化参数可以包括，当确定模型的损失函数已经针对训练数据和测试数据收敛到稳定状态时，令处理器减小正则化参数。对于本领域技术人员来说将会显而易见的是，针对训练数据和测试数据的损失函数不必收敛到相同值。在这种情况下，因为针对训练数据和测试数据两者的模型的损失函数已经收敛(不论它已经收敛到相对高的值还是在最佳值附近或处的值)，可以确定神经网络模型正在从训练数据很好地“学习”。因此，神经元的所学习的权重被用作用于(例如利用新训练数据的)新训练过程的初始权重，并且正则化参数被减小。正则化参数可以例如被减小因子β(即β(乘以当前正则化参数)，其中。0<β<1。当然，这种调整将会导致更少的神经元或连接在训练模型的下一迭代中被暂时忽视。如上面的，正则化参数被减小的量可以基于从将测试数据呈现给神经网络模型而看出的结果。神经网络模型然后可以使用减小的正则化参数和更新的神经元权重被再训练。

已经发现，通过应用上面描述的技术，神经网络模型的训练可以被快速地且高效地实现。在一些实施例中，当被处理器302执行时，指令集可以进一步令处理器在确定损失函数针对训练数据和测试数据被最小化(或收敛)时结束神经网络模型的训练。因此，一旦模型的损失函数被认为收敛，并且损失函数在其处收敛的值是其最佳值处(即尽可能小)，损失函数就能够被认为已经被最小化，使得不需要模型的进一步训练。神经网络模型的训练因此在该阶段处结束。

正则化参数的调整由此基于模型的损失函数的收敛。即，当损失函数随着训练过程改变时，正则化参数利用令损失函数更快地收敛并且收敛到更小(即更佳)值的意图被相应地调整。一般来说，正则化参数随着神经网络模型被训练被调整，直至损失函数收敛到稳定状态。在此背景下，稳定状态被认为是损失函数改变小于限定量或在限定阈值内改变的状态。在稳定状态下，损失函数可以是近似恒定的。在一些实施例中，当损失函数在随后的迭代之间改变小于限定量时，模型的损失函数可以被认为已经收敛到稳定状态。

如上面提及的，神经网络模型可以用来对图像进行分类或注释，例如，利用图像中的对象的指示或位置对图像进行注释。因此，在一些实施例中，训练数据可以包括利用以下中的至少一项注释的图像：图像中的对象的存在的指示；以及图像中的对象的位置的指示。在一些实施例中，训练数据可以包括医学图像。然而，本领域技术人员应理解，本文中描述的系统和方法可以结合在其他类型的数据上训练的神经网络模型来使用。

本发明的又一方面涉及一种用于训练神经网络模型的方法。图5图示了根据实施例的用于训练神经网络模型的计算机实施的方法500。所图示的方法500一般能够由系统300的处理器302执行或在系统300的处理器302的控制下执行。根据一些实施例，方法500可以是部分或完全自动化的。

方法500包括，在步骤502处，接收包括第一组注释图像的训练数据。如上面提及的，图像可以包括医学图像，并且图像中的注释可以包括对象(例如支架)的存在的指示、和/或对象的位置的指示。

在步骤503处，方法500包括接收包括第二组注释图像的测试数据。

在步骤504处，方法500包括使用所述训练数据基于初始正则化参数来训练所述神经网络模型。初始正则化参数可以被任意地或随机地选择，并且表示在训练期间被暂时忽视或省略的神经元或神经元之间的连接的比例。

方法500包括，在步骤506处，迭代地执行以下步骤：使用所述测试数据来测试506A经训练的神经网络模型，以确定经训练的神经网络模型的针对测试数据的损失函数；基于神经网络模型的针对训练数据的损失函数和神经网络模型的损失函数来调整506B初始正则化参数；使用训练数据基于经调整的正则化参数来再训练506C神经网络模型，其中，所述迭代的步骤被执行直至确定针对训练数据的损失函数和针对测试数据的损失函数都已经收敛到稳定状态。

正则化参数的迭代调整通过箭头508来指示。

根据又一方面，提供了一种计算机程序产品。图6示意性地示出了计算机可读介质602和处理器604。根据实施例，计算机程序产品包括计算机可读介质602，所述计算机可读介质具有被实施在其中的计算机可读代码，所述计算机可读代码被配置为使得，在由合适的计算机或处理器604执行时，令计算机或处理器执行本文中描述的一种或多种方法。因此，应意识到，本公开也应用于计算机程序，具体地载体上或载体中的适合于将实施例付诸实践的计算机程序。程序可以是以源代码、目标代码、代码中间源和诸如以部分编译形式的目标代码的形式，或者以适合用于实施根据本文中描述的实施例的方法的任何其他形式。处理器604可以包括或类似于上面描述的处理器302。

处理器302、604能够包括被配置或编程为以本文中描述的方式控制系统300的一个或多个处理器、处理单元、多核处理器或模块。在具体实施方式中，处理器302、604能够包括均被配置为或是用于执行本文中描述的方法的个体或多个步骤的多个软件和/或硬件模块。

如本文中使用的术语“模块”旨在包括硬件部件(诸如被配置为执行具体功能的处理器或处理器的部件)或软件部件(诸如当由处理器执行时具有具体功能的指令集数据)。

将认识到，本发明的实施例也应用于计算机程序，特别是在载体上或在载体中的计算机程序，所述计算机程序适于将本发明付诸实践。程序可以是以源代码、目标代码、代码中间源和诸如以部分编译形式的目标代码的形式，或者以适合用于实施根据本发明的实施例的方法的任何其他形式。还应认识到，这样的程序可以具有许多不同的架构设计。例如，实施根据本发明的方法或系统的功能的程序代码可以被细分为一个或多个子例程。在这些子例程之间分布功能的许多不同方式对本领域技术人员来说将是显而易见的。子例程可以被共同存储在一个可执行文件中，以形成自包含程序。这样的可执行文件可以包括计算机可执行指令，例如，处理器指令和/或解读器指令(例如，Java解读器指令)。备选地，一个或多个或所有子例程可以被存储在至少一个外部库文件中，并且静态地或动态地(例如在运行时)与主程序链接。主程序包含对至少一个子例程的至少一个调用。子例程还可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括计算机可执行指令，其对应于本文中提出的至少一个方法的每个处理阶段。这些指令可以被细分为子例程和/或存储在可以被静态地或动态地链接的一个或多个文件中。涉及计算机程序产品的另一实施例包括计算机可执行指令，其对应于本文中提出的系统和/或产品中的至少一个的每个单元。这些指令可以被细分为子例程和/或存储在可以被静态地或动态地链接的一个或多个文件中。

计算机程序的载体可以是能够承载程序的任何实体或设备。例如，载体可以包括存储装置，诸如ROM(例如，CD ROM或半导体ROM)，或者磁记录介质(例如，硬盘)。此外，载体可以是诸如电学或光学信号的可传送载体，其可以经由电缆或光缆或通过无线电或其他工具来传达。当程序体现在这种信号中时，载体可以由这种线缆或其他设备或单元构成。备选地，载体可以是程序被体现在其中的集成电路，集成电路适于执行相关方法，或者用于相关方法的执行。

通过研究附图、说明书和权利要求书，本领域技术人员在实践所要求保护的本发明时可以理解和实现所公开实施例的其他变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。尽管某些措施被记载在互不相同的从属权利要求中，但是这并不指示不能有利地使用这些措施的组合。计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质，但是也可以被以其他形式分布，例如经由互联网或其他有线或无线的远程通信系统。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims

1.一种被配置用于训练神经网络模型的系统(300)，所述系统(300)包括：

存储器(306)，其包括表示指令集的指令数据；以及

处理器(302)，其被配置为与所述存储器(306)通信并且执行所述指令集，其中，当由所述处理器执行时，所述指令集令所述处理器：

接收包括第一组注释图像的训练数据；

接收包括第二组注释图像的测试数据；

使用所述训练数据基于初始正则化参数来训练所述神经网络模型；以及

迭代地执行以下步骤：

使用所述测试数据来测试经训练的神经网络模型，以确定经训练的神经网络模型的针对所述测试数据的损失函数；

基于所述神经网络模型的针对所述训练数据的损失函数和所述神经网络模型的损失函数来调整所述初始正则化参数；

使用所述训练数据基于经调整的正则化参数来再训练所述神经网络模型；

其中，所述迭代的步骤被执行直至确定针对所述训练数据的所述损失函数和针对所述测试数据的所述损失函数都已经收敛到稳定状态。

2.根据权利要求1所述的系统(300)，其中，所述正则化参数包括以下中的至少一项：与所述神经网络模型中的神经元相关的dropout参数或与所述神经网络模型中的神经元之间的连接相关的dropconnect参数。

3.根据权利要求1或权利要求2所述的系统(300)，其中，对所述正则化参数进行的所述调整基于所述神经网络模型的针对所述训练数据的所述损失函数与所述神经网络模型的针对所述测试数据的所述损失函数之间的差。

4.根据权利要求1至3中任一项所述的系统(300)，其中，令所述处理器(302)调整所述正则化参数包括，当确定所述神经网络模型的所述损失函数针对所述测试数据比针对所述训练数据更高并且所述损失函数已经针对所述训练数据最小化时，令所述处理器增加所述正则化参数。

5.根据权利要求1至4中任一项所述的系统(300)，其中，令所述处理器(302)调整所述正则化参数包括，当确定所述神经网络模型的所述损失函数针对所述训练数据比针对所述测试数据更高时，令所述处理器减小所述正则化参数。

6.根据权利要求1至5中任一项所述的系统(300)，其中，令所述处理器(302)训练所述神经网络模型或再训练所述神经网络模型包括，使用所述训练数据迭代地训练所述神经网络模型直至针对所述训练数据的所述神经网络模型的损失函数收敛到稳定状态。

7.根据权利要求6所述的系统(300)，其中，令所述处理器(302)再训练所述神经网络模型包括，令所述处理器基于前次迭代期间的所述神经网络模型的一个或多个层中的神经元的权重来设置所述神经元的权重。

8.根据权利要求6或权利要求7所述的系统(300)，其中，当所述神经网络模型的所述损失函数在随后的迭代之间改变小于限定量时，所述神经网络模型的针对所述训练数据的损失函数被认为已经收敛到稳定状态。

9.根据权利要求1至8中任一项所述的系统(300)，其中，所述训练数据和所述测试数据都包括利用以下中的至少一项注释的图像：所述图像中的对象的存在的指示；以及所述图像中的对象的位置的指示。

10.根据权利要求9所述的系统(300)，其中，所述训练数据和所述测试数据都包括医学图像。

11.根据权利要求1至10中任一项所述的系统(300)，其中，所述正则化参数限定要在训练期间从所述神经网络模型的具体层暂时排除的神经元或神经元之间的连接的比例。

12.一种训练神经网络模型的方法(500)，所述方法包括：

接收包括第一组注释图像的训练数据；

接收包括第二组注释图像的测试数据；

迭代地执行以下步骤：

使用所述测试数据来测试经训练的神经网络模型，以确定所述经训练的神经网络模型的针对所述测试数据的损失函数；

13.一种计算机程序产品，包括非瞬态计算机可读介质，所述计算机可读介质(602)具有被实施在其中的计算机可读代码，所述计算机可读代码被配置为使得，在由合适的计算机或处理器(604)执行时，令所述计算机或处理器执行根据权利要求12所述的方法。