CN112262394B

CN112262394B - 机器学习方法、机器学习装置

Info

Publication number: CN112262394B
Application number: CN201880094484.7A
Authority: CN
Inventors: 高桥涉; 押川翔太
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2024-01-16
Anticipated expiration: 2038-06-28
Also published as: JPWO2020003434A1; CN112262394A; WO2020003434A1; US20210358129A1; US11176672B1; JP6977886B2

Abstract

全尺寸的学习图像被图像缩小部(11)缩小后输入到FCN(全卷积神经网络)运算部(13)，FCN运算部(13)进行所设定的滤波器系数下的运算并输出缩小标签图像。缩小标签图像被图像放大部(14)放大到全尺寸，误差计算部(15)基于损失函数，来计算该放大后的标签图像与全尺寸的正确图像之间的误差，参数更新部(16)根据该误差来更新滤波器系数。通过学习控制部(17)的控制来重复学习，由此能够制作包含图像放大时产生的误差地执行最佳的分割那样的学习模型。另外，通过在学习模型中包括图像放大处理，能够输出全尺寸的标签图像，也能够高精度地进行模型的精度评价。

Description

机器学习方法、机器学习装置

技术领域

本发明涉及一种以图像信息为对象的机器学习方法、机器学习装置以及机器学习用的计算机程序，更详细地说，涉及一种用于通过监督学习来制作对图像执行语义分割(semantic segmentation)的学习模型的机器学习方法、机器学习装置以及机器学习程序。

背景技术

近年来，在自动驾驶、医疗用图像诊断等各种领域中，利用着使用机器学习、特别是深度学习(deep learning)的语义分割等图像处理技术。在使用深度学习的图像处理中，广泛地利用了卷积神经网络(Convolutional Neural Network：下面简称为“CNN”)。CNN通常具有：卷积层，其通过利用多个滤波器的卷积处理来提取图像的特征；池化层，其通过汇总一定区域的响应的池化处理来赋予局部的数据的位置不变性；以及全连接层，其将通过卷积层和池化层提取出特征部分后的图像数据连接于一个节点，输出通过激活函数变换得到的值(特征变量)。另外，最近提出了将构成CNN的全连接层变为卷积层的全(完全)卷积神经网络(Fully Convolutional Neural Network：下面简称为“FCN”)(参照非专利文献1)，特别是在语义分割中的应用正在发展。

总之，在包括上述CNN、FCN在内的机器学习中，一般是使用参数w对输入数据x构建模型函数f(w,x)，定义该模型函数中的相对于预先准备的正确数据的损失，并修正参数w以使该损失最小化，由此来求出适当的模型函数。这样的方法作为误差反向传播算法(BackPropagation)而被周知。在语义分割中，上述正确数据是指构成标签图像的数据，该标签图像是对输入图像正确地进行分割而得到的结果。

一般地，在以图像数据为对象的深度学习的学习中，其计算量庞大。因此，所输入的图像数据通常是通过被设计为专用于图像计算处理的GPU(Graphics Processing Unit：图形处理单元)来进行处理的。但是，在该情况下，也难以一次性处理大量的图像，因此实施如下的处理：将输入的图像按规定的张数进行划分，针对划分出的每一个集合的图像计算损失函数。视为一个集合的图像的张数被称为批尺寸(batch size)，作为机器学习时的一个重要的参数而被预先设定。

虽然使批尺寸增大时学习快速且高效，但是因GPU的存储器容量的限制，能够设定的批尺寸存在限制。另外，在输入图像的尺寸极大的情况下，有时即使将批尺寸设定为最小值，学习所需要的数据尺寸也超出了GPU的存储器容量，从而无法执行处理。例如本申请人们在PCT/JP2018/008483号、PCT/JP2018/009046号等中提出了针对由全息显微镜得到的细胞观察图像应用机器学习来识别在培养多能干细胞的过程中产生的脱离未分化状态的细胞的方法。在这样的情况下，由于原始的细胞观察图像的清晰度非常高且摄影范围也广，因此图像数据的尺寸庞大，与其相伴地，在学习时使用的暂时性存储器的尺寸也变得庞大，因此有时一张图像的学习所需要的数据尺寸超出了GPU的存储器容量。

因此，以往为了使批尺寸尽可能地大、或者为了处理数据尺寸极大的图像，而采用了使所输入的图像和与其对应的正确图像的尺寸同样地缩小并使用该缩小后的图像来实施学习的方法。作为图像缩小的算法，已知有双线性插值法、双三次插值法、最近邻法、兰索斯(Lanczos)插值法等。

现有技术文献

非专利文献

非专利文献1：Jonathan Long、及其他2名、“Fully Convolutional Networ ksfor Semantic Segmentation(用于语义分割的全卷积网络)”、The IEEE Con ference onComputer Vision and Pattern Recognition(IEEE计算机视觉与模式识别会议)、2015年、pp.3431-3440、(网址<URL:https://people.eecs.berkel ey.edu/～jonlong/long_shelhamer_fcn.pdf>)

发明内容

发明要解决的问题

然而，在上述以往的机器学习方法中存在如下问题。

在机器学习中，一般而言，在通过使用学习图像和正确图像的学习制作出学习模型之后，实施该学习模型是否适当的精度评价。在进行该学习模型的精度评价时，使用测试图像和与该测试图像对应的正确图像，但是作为将该测试图像输入到学习模型而得到的结果来从该学习模型输出的标签图像是被缩小了的图像。因此，在将该缩小了的标签图像通过双线性插值法等进行放大来恢复为与正确图像相同的全尺寸(full size)的图像之后，将两个图像进行比较来进行评价。可是，有时由于在将缩小了的标签图像进行放大时产生的像素信号的误差，两个图像间的微小区域的差异变得明显，导致评价精度降低。

本发明是为了解决上述问题而完成的，其目的在于提供如下一种机器学习方法、机器学习装置以及机器学习程序：能够制作即使在学习时因输入图像的尺寸大而需要缩小图像的情况下也输出全尺寸的高精度的标签图像的学习模型。

用于解决问题的方案

为了解决上述问题而完成的本发明所涉及的机器学习方法利用机器学习来制作用于对输入图像进行语义分割的学习模型，所述机器学习方法的特征在于，包括以下步骤：

a)图像缩小步骤，使所输入的学习图像的尺寸缩小；以及

b)学习执行步骤，包括标签图像生成步骤、图像放大步骤及参数更新步骤，通过重复进行该标签图像生成步骤、该图像放大步骤及该参数更新步骤来逐渐改进所述学习模型，其中，在该标签图像生成步骤中，使用缩小后的多个学习图像并按照基于规定的参数的学习模型来生成标签图像，在该图像放大步骤中，将该标签图像放大到所输入的所述学习图像的尺寸，在该参数更新步骤中，基于该放大后的标签图像和与所述学习图像对应的正确图像，来利用损失函数求出误差，根据该误差来更新所述参数，

在所述机器学习方法中，获得向在所述学习执行步骤中改进后的学习模型添加基于所述图像放大步骤的放大处理而得到的放大学习模型，来作为用于进行语义分割的学习模型。

另外，为了解决上述问题而完成的本发明所涉及的机器学习装置利用机器学习来制作用于对输入图像进行语义分割的学习模型，所述机器学习装置的特征在于，具备：

a)图像缩小部，其使所输入的学习图像的尺寸缩小；以及

b)学习执行部，其包括标签图像生成部、图像放大部、参数更新部及重复控制部，该标签图像生成部使用缩小后的多个学习图像并按照基于规定的参数的学习模型来生成标签图像，该图像放大部将该标签图像放大到所输入的所述学习图像的尺寸，该参数更新部基于该放大后的标签图像和与所述学习图像对应的正确图像，来利用损失函数求出误差，根据该误差来更新所述参数，该重复控制部通过重复进行这些各部的处理来逐渐改进所述学习模型，

所述机器学习装置获得向在所述学习执行部中改进后的学习模型添加所述图像放大部的放大处理而得到的放大学习模型，来作为用于进行语义分割的学习模型。

并且，为了解决上述问题而完成的本发明所涉及的机器学习程序用于在计算机上利用机器学习来制作用于对输入图像进行语义分割的学习模型，所述机器学习程序的特征在于，使计算机作为以下各功能部进行动作：

a)图像缩小功能部，其使所输入的学习图像的尺寸缩小；以及

b)学习执行功能部，其包括标签图像生成功能部、图像放大功能部、参数更新功能部及重复控制功能部，该标签图像生成功能部使用缩小后的多个学习图像并按照基于规定的参数的学习模型来生成标签图像，该图像放大功能部将该标签图像放大到所输入的所述学习图像的尺寸，该参数更新功能部基于该放大后的标签图像和与所述学习图像对应的正确图像，来利用损失函数求出误差，根据该误差来更新所述参数，该重复控制功能部通过重复进行这些各功能部的处理来逐渐改进所述学习模型，

所述机器学习程序获得向在所述学习执行功能部中改进后的学习模型添加所述图像放大功能部的放大处理而得到的放大学习模型，来作为用于进行语义分割的学习模型。

本发明中的机器学习的方法只要是能够基于学习模型进行图像的语义分割即可，不特别限定其方法、算法，例如除了上述的包括FCN、CNN在内的深度学习以外，还能够列举支持向量机(Support Vector Machine：SVM)、随机森林(Random Forest)、自适应提升(AdaBoost)等。

在本发明中，作为用于制作学习模型的图像，输入将相同尺寸(全尺寸)的学习图像和正确图像作为一组的多(通常为相当多的数量)组图像。正确图像为标签图像，该标签图像是对学习图像实施准确的语义分割后得到的结果。在本发明所涉及的机器学习方法中，首先通过图像缩小步骤将所输入的全尺寸的学习图像缩小为规定的尺寸。该图像缩小的算法并没有特别限定，能够使用包括上述的几种方法在内的任意的方法。

在学习执行步骤中，通过使用如上述那样缩小了的多个学习图像进行机器学习，来制作用于对未知的图像进行语义分割的学习模型。例如，在进行基于FCN的深度学习的情况下，在标签图像生成步骤中，通过包含将滤波器的系数(权重)作为参数的多个卷积层和多个池化层的多层网络来生成标签图像，但是首先是通过包含该滤波器的系数被设定为规定值的卷积层的多层网络来生成标签图像。输入到该网络的输入图像为缩小了的图像，因此从该网络输出的标签图像也为缩小了的图像。

在图像放大步骤中，将该缩小了的标签图像放大到原始的学习图像的尺寸、也就是全尺寸。然后，在参数更新步骤中，使用规定的损失函数来根据放大后的全尺寸的标签图像和同样全尺寸的正确图像求出误差，根据该误差来更新参数、也就是卷积层的滤波器系数。然后，重复进行如下处理：通过滤波器系数被更新后的多层网络再次生成标签图像，将该标签图像放大并求出与正确图像之间的误差。通过该重复处理来逐渐地改进滤波器系数组也就是学习模型，使得更接近准确的模型。然后，获取在最终的学习模型中添加图像放大步骤中的放大处理而得到的放大学习模型，来作为用于进行语义分割的学习模型。

在本发明中，由于以包括图像放大步骤中的放大处理的方式执行学习，因此以尽可能地减小该放大处理时可能产生的像素信号的误差等的方式决定学习模型的参数。在利用以往的学习方法制作的学习模型中，针对所输入的测试图像而输出的标签图像为缩小了的图像，但是在本发明制作的学习模型中，输出的标签图像为与所输入的测试图像相同的全尺寸的图像。因此，能够直接使用从学习模型输出的标签图像和全尺寸的正确图像，来进行学习模型的精度评价。

发明的效果

如上所述，根据本发明，能够缩小输入图像的尺寸来进行学习，因此能够增大批尺寸，或者也能够处理图像尺寸极大的图像。另一方面，从学习模型输出的标签图像不是缩小图像，而是与原始的输入图像相同的全尺寸的高清晰度的图像，因此例如能够以高精度进行学习模型的精度评价。

附图说明

图1是本发明所涉及的机器学习装置的一个实施例的模块结构图。

图2是本实施例的机器学习装置中的FCN运算部的构造的概念图。

图3是示出本实施例的机器学习装置中的学习时的处理流程的流程图。

具体实施方式

下面，参照附图来说明本发明所涉及的机器学习方法、机器学习装置以及机器学习程序的一个实施例。

图1是用于实施本发明所涉及的机器学习方法的机器学习装置的一个实施例的概要模块结构图。

本实施例的机器学习装置包括图像缩小部11、学习执行部12以及学习控制部17来作为功能模块，其中，该学习执行部12包括FCN运算部13、图像放大部14、误差计算部15以及参数更新部16。此外，该机器学习装置能够以个人计算机、更高性能的工作站、或者包括与这样的计算机经由通信线路连接的高性能的计算机的计算机系统作为硬件资源，能够通过执行搭载于这样的计算机单体或者计算机系统中的软件来实现该机器学习装置。

图2是FCN运算部13的构造的概念图。关于FCN的构造、处理的详细内容，在以非专利文献1为代表的很多的文献中已经详细地进行了说明。另外，也能够利用美国迈斯沃克(MathWorks)公司提供的“MATLAB”等市场上销售的或者免费的软件来实现。因此，在此进行概要性的说明。

如图2所示，FCN例如包括重复配置卷积层和池化层来进行多层化而成的多层网络131以及与卷积神经网络中的全连接层相当的卷积层132。在该情况下，在多层网络131中，重复进行卷积处理和池化处理，该卷积处理是使用规定尺寸的滤波器(核)的处理，该池化处理是将卷积结果二维地缩小并提取有效值的处理。但是，多层网络131也可以没有池化层而仅由卷积层构成。另外，在最终级的卷积层132中，使规定尺寸的滤波器在输入图像内滑动并进行局部卷积和反卷积。在该FCN中，通过对输入图像133进行语义分割，能够输出带标签的标签图像134。

为了通过FCN进行分割，需要预先使用大量的学习图像，来学习多层网络131中包括的多个卷积层、最终级的卷积层132各自的滤波器的系数(权重)。接着，按照图3所示的流程图，来说明在本实施例的机器学习装置中进行学习时的动作。在此，利用在机器学习中通常使用的随机梯度下降法进行学习。该方法为将被提供的大量的学习数据以预先决定的小批量(mini-batch)为单位反复进行分批并学习的方法，具有通过对学习数据随机地进行洗牌来不易陷入局部解的优点。

在学习时，使用大量的将学习图像和正确图像作为一组的集合图像，该学习图像为分割的对象，该正确图像是对该学习图像适当地进行分割而得到的结果的标签图像。在此，为了便于说明，学习图像与正确图像的组设为M。

学习控制部17根据预先决定的批尺寸，随机地决定分配为多个小批量的学习图像(步骤S1)。在此设为，小批量的数量为N，分配为一个小批量的学习图像的数量为n。

图像缩小部11按照由学习控制部17决定的分配，读入一个小批量中包括的n张学习图像，将各图像的尺寸缩小为规定的尺寸。接着，学习执行部12基于缩小后的多张学习图像和分别与各原始的学习图像对应的正确图像，来执行FCN的学习(步骤S13)。

具体地说，首先，FCN运算部13在由参数更新部16初始设定的滤波器系数下对输入图像执行处理，输出作为分割的结果的标签图像。由于输入图像为缩小图像，因此输出的标签图像也为缩小图像。图像放大部14对于多个标签图像中的各个标签图像，将图像的尺寸放大到与原始的学习图像相同的全尺寸。误差计算部15基于放大后的标签图像和与该放大后的标签图像对应的正确图像，来通过规定的损失函数计算误差。即，在计算该误差时，标签图像和正确图像均为全尺寸的图像。参数更新部16基于计算出的误差，来更新FCN运算部13中的滤波器系数。由此，FCN运算部13针对相同的输入图像进行处理的结果、也就是标签图像发生变化。学习控制部17重复这样的例程直到例如误差收敛于规定的容许范围，由此来学习基于一个小批量的FCN运算部13的滤波器系数。即，通过误差反向传播算法学习FCN运算部13的滤波器系数。

之后，学习控制部17判定是否已结束对于所有小批量的学习(步骤S14)。在步骤S14中判定为否的情况下，由于在步骤S11中学习图像的分配已确定的多个小批量中存在尚未完成学习的小批量，因此返回到步骤S12。然后，在学习控制部17的控制下，图像缩小部11读入另一个小批量中包括的学习图像并将学习图像缩小。因而，步骤S12～S14的处理被重复进行与小批量的数量N相应的次数。

当在上述步骤S14中判定为是时，学习控制部17判定是否将步骤S11的处理重复进行了预先决定的周期(epoch)数(步骤S15)。在该步骤S15中判定为否的情况下，从步骤S15返回到S11，学习控制部17再次随机地决定分配为多个小批量的学习图像。因而，分配为各小批量的学习图像被洗牌。周期数是预先适当决定的，但是通常为例如1000次或1万次等较大的值。即，步骤S11～S15的处理被重复进行该周期数，在该重复的过程中进行FCN运算部13的滤波器系数的学习。然后，当在步骤S15中判定为是时，结束学习。然后，将其学习结果作为学习完成的模型进行保存(步骤S16)。

在如上述那样学习FCN运算部13的滤波器系数时的循环中包括图像放大部14的放大处理。通常而言，在放大处理中，进行缩小处理的逆操作，但是在通过插值而生成的像素信号中无法避免误差，而在本实施例的机器学习装置中，以将在该图像放大时产生的误差也包含在内的方式制作基于FCN的学习模型。因而，在此制作的学习模型为包括有图像放大部14的放大处理的模型。即，将该FCN与用于使作为该FCN的输出的标签图像放大的放大处理合并得到的放大学习模型为用于对输入图像进行语义分割的学习模型，该学习模型的输出为全尺寸的标签图像。

由此，例如在使用测试图像来评价制作出的学习模型的精度时，能够使用针对所输入的测试图像而输出的全尺寸的标签图像和与测试图像对应的全尺寸的正确图像来进行高精度的评价。

此外，在上述实施例中，作为用于语义分割的机器学习法，使用了FCN，但是显然也可以是通常的CNN。另外，并不限于使用神经网络的机器学习法，只要是能够对图像进行分割的机器学习法，则应用本发明都是有效的。作为这样的机器学习法，例如有支持向量机、随机森林、自适应提升等。

另外，显而易见的是，上述实施例只是本发明的一例，在本发明的宗旨的范围内进一步进行适当的变形、修正、追加也包含在本申请的权利要求的范围内。

附图标记说明

11：图像缩小部；12：学习执行部；13：FCN运算部；131：多层网络；132：卷积层；14：图像放大部；15：误差计算部；16：参数更新部；17：学习控制部。

Claims

1.一种机器学习方法，利用机器学习来制作用于对输入图像进行语义分割的学习模型，所述机器学习方法的特征在于，包括以下步骤：

a)图像缩小步骤，使所输入的学习图像的尺寸缩小；以及

2.根据权利要求1所述的机器学习方法，其特征在于，

所述机器学习为使用卷积神经网络的深度学习。

3.一种机器学习装置，利用机器学习来制作用于对输入图像进行语义分割的学习模型，所述机器学习装置的特征在于，具备：

a)图像缩小部，其使所输入的学习图像的尺寸缩小；以及

4.根据权利要求3所述的机器学习装置，其特征在于，

所述机器学习为使用卷积神经网络的深度学习。