CN113762327A

CN113762327A - 机器学习方法、机器学习系统以及非暂态电脑可读取媒体

Info

Publication number: CN113762327A
Application number: CN202110621872.XA
Authority: CN
Inventors: 陈智旸; 张哲瀚; 张智威
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2020-06-05
Filing date: 2021-06-04
Publication date: 2021-12-07
Anticipated expiration: 2041-06-04
Also published as: KR20210152402A; CN113762327B; EP3920102A1; JP7226696B2; US20210383224A1; TWI831016B; TW202147139A; JP2021193564A

Abstract

一种机器学习方法包含下列步骤：(a)取得超参数以及超网络参数的初始值；(b)根据超参数以及超网络参数产生第一分类模型参数，基于第一分类模型参数针对训练样本的分类结果更新超网络参数；(c)根据超参数以及更新后的超网络参数产生第二分类模型参数，基于第二分类模型参数针对验证样本的分类结果更新超参数；以及(d)重复步骤(b)与(c)以更新超网络参数以及超参数。透过自动化调整的资料增强的超参数可以有效提高准确率，降低过度拟合的问题。

Description

机器学习方法、机器学习系统以及非暂态电脑可读取媒体

技术领域

本公开有关于一种机器学习技术，且特别是有关于具有资料增强功能的机器学习技术。

背景技术

在机器视觉领域中，经常会利用到机器学习及神经网络等技术。机器视觉的其中一种重要应用是检测或辨识图片或影像当所包含的物件(例如人脸、车牌等)，其可透过特征提取和特征分类来进行物件检测。

为了正确的检测图片或影像中的物件并提高检测的精准度，通常需要大量的训练资料(例如训练用的输入图片以及相应的分类标签)，让负责分类的神经网络能够从训练资料中学习到输入图片与正确的分类标签之间的相关性。实际情况中，要取得足够数量的训练资料以符合精准度需求是有相当难度，各种物件检测的应用经常都面临着训练资料的样本数目不足的问题。

发明内容

本公开的一形态揭露一种机器学习方法，包含：(a)取得一超参数以及一超网络参数的初始值；(b)根据该超参数以及该超网络参数产生一第一分类模型参数，基于该第一分类模型参数针对一训练样本的分类结果更新该超网络参数；(c)根据该超参数以及更新后的该超网络参数产生一第二分类模型参数，基于该第二分类模型参数针对一验证样本的分类结果更新该超参数；以及(d)重复步骤(b)与(c)以更新该超网络参数以及该超参数。

在一些实施例中，步骤(b)包含：(b1)由一资料增强模型基于该超参数对该训练样本进行资料增强产生一增强训练样本；(b2)由一超网络基于该超网络参数将该超参数转换为该第一分类模型参数；(b3)由一分类模型基于该第一分类模型参数对该增强训练样本进行分类产生对应该增强训练样本的一第一预测标签；以及(b4)根据该第一预测标签与该训练样本之一训练标签比较产生的一第一损失更新该超网络参数。

在一些实施例中，步骤(b2)包含：由该超网络基于该超网络参数以及多个探索值，将该超参数转换为对应该些探索值的多个探索分类模型参数。步骤(b3)包含：由该分类模型基于该多个探索分类模型参数分别形成多个探索分类模型，该多个探索分类模型分别对该增强训练样本进行分类产生对应该增强训练样本的多个第一预测标签。以及步骤(b4)包含：根据该多个第一预测标签与该训练样本的一训练标签比较计算与该多个探索分类模型对应的多个第一损失；以及根据该多个探索分类模型以及其对应的该多个第一损失以更新该超网络参数。

在一些实施例中，步骤(b4)中将该多个第一预测标签分别与该训练标签进行一交叉熵计算以得到该多个第一损失。

在一些实施例中，多个探索分类模型每一个各自包含多个神经网络结构层，该多个神经网络结构层分为一第一结构层部分以及接续于该第一结构层部分的一第二结构层部分，用以形成该多个探索分类模型的该多个探索分类模型参数各自包含一第一权重参数内容以及一第二权重参数内容，该第一权重参数内容用以决定该第一结构层部分的运作，该第二权重参数内容用以决定该第二结构层部分的运作。

在一些实施例中，多个探索分类模型的该多个第二结构层部分共享相同的该些第二权重参数内容，该多个第二结构层部分的运作逻辑彼此相同。

在一些实施例中，第一结构层部分包含至少一第一卷积层，该多个探索分类模型各自的该至少一第一卷积层彼此权重参数不同。

在一些实施例中，该第二结构层部分包含至少一第二卷积层以及至少一全连接层，该多个探索分类模型各自的该至少一第二卷积层以及该至少一全连接层彼此权重参数相同。

在一些实施例中，步骤(c)包含：(c1)由该超网络基于更新后的该超网络参数将该超参数转换为该第二分类模型参数；(c2)由该分类模型基于该第二分类模型参数对该验证样本进行分类产生对应该验证样本的一第二预测标签；以及(c3)根据该第二预测标签与该验证样本的一验证标签比较产生的一第二损失更新该超参数。

在一些实施例中，步骤(c3)中：将该第二预测标签与该验证标签进行一交叉熵计算以得到该第二损失。

本公开的另一形态揭露一种机器学习系统，包含存储单元以及处理单元。存储单元用以储存超参数以及超网络参数的初始值。处理单元与存储单元耦接，处理单元运行超网络以及分类模型，处理单元用以进行下列操作：(a)利用该超网络根据该超参数以及该超网络参数产生一第一分类模型参数，利用该分类模型基于该第一分类模型参数产生一训练样本的分类结果，藉以更新该超网络参数；(b)利用该超网络根据该超参数以及更新后的该超网络参数产生一第二分类模型参数，利用该分类模型基于该第二分类模型参数产生一验证样本的分类结果，藉以更新该超参数；以及(c)重复操作(a)与(b)以更新该超网络参数以及该超参数。

在一些实施例中，处理单元更用以运行一资料增强模型，该处理单元进行的操作(a)包含：(a1)利用该资料增强模型基于该超参数对该训练样本进行资料增强产生一增强训练样本；(a2)利用该超网络基于该超网络参数将该超参数转换为该第一分类模型参数；(a3)利用该分类模型基于该第一分类模型参数对该增强训练样本进行分类产生对应该增强训练样本的一第一预测标签；以及(a4)根据该第一预测标签与该训练样本的一训练标签比较产生的一第一损失更新该超网络参数。

在一些实施例中，处理单元进行的操作(a2)包含：由该超网络基于该超网络参数以及多个探索值，将该超参数转换为对应该些探索值的多个探索分类模型参数。处理单元进行的操作(a3)包含：由该分类模型基于该多个探索分类模型参数分别形成多个探索分类模型，该多个探索分类模型分别对该增强训练样本进行分类产生对应该增强训练样本的多个第一预测标签。处理单元进行的操作(a4)包含：根据该多个第一预测标签与该训练样本之一训练标签比较计算与该多个探索分类模型对应的多个第一损失；以及根据该多个探索分类模型以及其对应的该多个第一损失以更新该超网络参数。

在一些实施例中，处理单元进行的操作(a4)包含：将该多个第一预测标签分别与该训练标签进行一交叉熵计算以得到该多个第一损失。

在一些实施例中，该第一结构层部分包含至少一第一卷积层，该多个探索分类模型各自的该至少一第一卷积层彼此权重参数不同。

在一些实施例中，该第二结构层部分包含至少一第二卷积层以及至少一全连阶层，该多个探索分类模型各自的该至少一第二卷积层以及该至少一全连阶层彼此权重参数相同。

在一些实施例中，该处理单元进行的操作(b)包含：(b1)由该超网络基于更新后的该超网络参数将该超参数转换为该第二分类模型参数；(b2)由该分类模型基于该第二分类模型参数对该验证样本进行分类产生对应该验证样本的一第二预测标签；以及(b3)根据该第二预测标签与该验证样本的一验证标签比较产生的一第二损失更新该超参数。

本公开的另一形态揭露一种非暂态电脑可读取媒体包含至少一指令程序，由一处理器执行该至少一指令程序以实行一机器学习方法，其包含：(a)取得超参数以及超网络参数的初始值；(b)根据超参数以及超网络参数产生第一分类模型参数，基于该第一分类模型参数针对训练样本的分类结果更新该超网络参数；(c)根据该超参数以及更新后的该超网络参数产生一第二分类模型参数，基于该第二分类模型参数针对一验证样本的分类结果更新该超参数；以及(d)重复步骤(b)与(c)以更新该超网络参数以及该超参数。

于本公开文件的上述实施例中，提出以超网络为基础的资料增强，以超网络产生多个连续性探索模型，利用梯度下降法来自动化调整资料增强所使用的超参数，并且采用了权重分享的策略来提升运算速度以及准确性，可以节省手动调整资料增强的参数的时间与人力资源。另外，不论原始训练样本是否已经足够，透过资料增强均可以有效提高准确率，降低过度拟合的问题，因此针对资料增强进行自动化的参数调整能更有效率地提高模型表现。

附图说明

图1示出了根据本公开的一实施例中一种机器学习系统的示意图。

图2示出了根据本公开的一实施例中一种机器学习方法的示意图。

图3示出了在一些实施例中机器学习方法其中一步骤的详细步骤的流程图。

图4示出了在一些实施例当中处理单元当中各元件执行图3中的详细步骤的示意图。

图5中A部分示出了根据本公开文件的一些实施例中将超参数转换计算该第一分类模型参数的示意图。

图5中B部分示出了根据本公开文件的一些实施例中根据第一损失更新超网络参数的示意图。

图6示出了根据本公开文件的一些实施例中分类模型根据四个探索分类模型参数所形成的四个探索分类模型的内部架构示意图。

图7示出了在一些实施例当中机器学习方法其中一步骤的详细步骤的流程图。

图8示出了在一些实施例当中处理单元当中各元件执行图7中的详细步骤的示意图。

图9中A部分示出了根据本公开文件的一些实施例中将超参数转换计算第二分类模型参数的示意图。

图9中B部分示出了根据本公开文件的一些实施例中根据第二损失更新超参数的示意图。

附图标号说明：

100:机器学习系统

120:存储单元

140:处理单元

142:资料增强模型

144:超网络

146:分类模型

200:机器学习方法

S210,S220,S230,S240:步骤

S221,S222,S223,S224,S225:步骤

S231,S232,S233,S234:步骤

HP,HP1,HP2:超参数

HNP,HNP1,HNP2:超网络参数

MP1:第一分类模型参数

MP2:第二分类模型参数

MP1m,MP2m:较佳的分类模型参数

SP1:资料增强空间

SP2:分类参数空间

HPe1,HPe2,HPe3,HPe4:探索超参数

MPe1,MPe2,MPe3,MPe4:探索分类模型参数

146e1,146e2,146e3,146e4:探索分类模型

SL1,SL2,SL3,SL4,SL5:神经网络结构层

SL6,SL7,SL8,SLn:神经网络结构层

P1:第一结构层部分

P2:第二结构层部分

TD:训练样本

LTD:训练标签

ETD:增强训练样本

VD:验证样本

LVD:验证标签

LPD1:第一预测标签

LPD2:第二预测标签

L1:第一损失

L2:第二损失

具体实施方式

以下公开提供许多不同实施例或例证用以实施本公开文件的不同特征。特殊例证中的元件及配置在以下讨论中被用来简化本公开。所讨论的任何例证只用来作解说的用途，并不会以任何方式限制本公开文件或其例证的范围和意义。在适当的情况下，在图示之间及相应文字说明中采用相同的标号以代表相同或是相似的元件。

请参阅图1，其示出了根据本公开的一实施例中一种机器学习系统100的示意图。机器学习系统100包括存储单元120以及处理单元140。处理单元140与存储单元120耦接。

在一些实施例中，机器学习系统100由电脑、服务器或处理中心建立。于一些实施例中，处理单元140可由处理器、中央处理单元或计算单元实现。于一些实施例中，存储单元120可以利用存储器、FLASH、只读存储器、硬盘或任何具相等性的储存组件来实现。

于一些实施例中，机器学习系统100并不限于包含存储单元120以及处理单元140，机器学习系统100可以进一步包含操作以及应用中所需的其他元件，举例来说，机器学习系统100可以更包含输出界面(例如用于显示资讯的显示面板)、输入接口(例如触控面板、键盘、麦克风、扫描器或FLASH读取器)以及通讯电路(例如WiFi通讯模组、蓝牙通讯模组、无线电信网络通讯模组等)。

如图1所示，存储单元120当中储存了至少两种超参数(hyperparameter)HP以及超网络参数(hypernetwork parameter)HNP各自的初始值。于一实施例中，机器学习系统100根据这两种参数(超参数HP以及超网络参数HNP)分别决定要如何进行资料增强以及标签分类的操作，详细作法将在后续段落详细说明。资料增强(data augmentation)是一种增加训练资料数量的技术，又称为资料扩增或者资料增补，在进行深度学习训练时，经常需要大量的训练资料，利用资料增强技术可以基于原始的训练资料计算产生更多数量的增强训练资料，以确保训练机器学习模型时不会产生过度拟合(over-fitting)的现象。

如图1所示，处理单元140与存储单元120耦接，处理单元140基于相应的软件/固件指令程序用以运行资料增强模型142、超网络(hypernetwork)144以及分类模型146。

于一些实施例中，资料增强模型142用以基于输入的训练样本进行资料增强产生多个增强训练样本。举例来说，当输入的训练样本为一张原始影像(例如为一张白天路面上汽车行驶中的照片)以及与这张原始影像对应的训练标签(例如汽车、公路或红绿灯)，资料增强模型142用以将原始影像进行水平翻转、垂直翻转、旋转、垂直平移、水平平移、放大/缩小、亮度调整等上述多种影像处理其中一或多种处理的组合。

于一些实施例中，资料增强模型142基于超参数HP的数值对训练样本中的原始影像进行不同程度的处理(例如采用不同的旋转角度、不同的放大/缩小程度)产生多个增强训练样本中的资料增强影像。这些资料增强影像虽然都是基于原始影像产生，但因为资料增强影像中像素的数值已经因为影像处理而改变，对于分类模型146来说多个增强训练样本可以等效视为不同的训练样本，藉此可以拓展训练样本的数目，解决训练样本不足的问题。

于一些实施例中，分类模型146可以对输入的资料(例如上述的资料增强影像)进行分类，例如检测输入的影像当中具有车辆、人脸、车牌、文字、图片或是其他影像特征物件。分类模型146根据分类的结果产生相应的标签。需特别说明的是，分类模型146在进行分类运作时需参考本身的分类模型参数。

于此实施例中，超网络144用以将超参数HP转换成分类模型146使用的分类模型参数。其中，超网络根据超网络参数HNP的设定，来决定要超参数HP要如何进行转换为分类模型参数。

也就是说，于一些实施例中，超参数HP不仅决定了资料增强模型142要如何进行资料增强，超参数HP也透过超网络144的转换后(形成分类模型参数)用以决定分类模型146要如何进行分类操作。

请一并参阅图2，其示出了根据本公开的一实施例中一种机器学习方法200的示意图，图1所示的机器学习系统100可用以执行图2中的机器学习方法200。

如图2所示，于步骤S210中首先取得超参数HP以及超网络参数HNP的初始值。于一些实施例中，这个超参数HP以及超网络参数HNP的初始值可以是根据过往训练经验当中取得的平均值、人工给定的预设值、或是随机数值。

于步骤S220中，根据超参数以及超网络参数产生第一分类模型参数，并基于第一分类模型参数针对训练样本的分类结果更新超网络参数。于一实施例中，由超网络144根据超网络参数HNP将超参数HP转换为第一分类模型参数，基于第一分类模型参数针对训练样本的分类结果更新超网络参数HNP。后续将配合具体的例子，进一步说明步骤S220在一些实施例当中的详细步骤。

于步骤S230中，根据超参数以及更新后的超网络参数产生第二分类模型参数，并基于第二分类模型参数针对验证样本的分类结果更新超参数。于一实施例中，由超网络144根据更新后的超网络参数HNP将超参数HP转换为第二分类模型参数，基于第二分类模型参数针对验证样本的分类结果更新超参数HP。后续将配合具体的例子，进一步说明步骤S230在一些实施例当中的详细步骤。

也就是说，在步骤S220中先对超网络参数HNP进行更新。在步骤S230中基于新的超网络参数HNP进而对超参数HP进行更新。

在步骤S240当中，判断收敛条件是否达成，若收敛条件尚未达成，则再次回到步骤S220，持续重复步骤S220与S230以更新超网络参数HNP以及超参数HP。于一些实施例当中，在收敛条件达成之前，可以持续进行步骤S220与S230以迭代方式逐步更新超网络参数HNP以及超参数HP。

若收敛条件已达成(例如分类模型146给出的分类结果准确度高于门槛值、训练次数达到预定次数、训练样本数达到预定样本数、或训练时间达到预定时间等)，则表示机器学习系统100已完成训练，后续可以依照训练完成后的分类模型146进行后续应用。例如训练完成后的分类模型146可以用于输入图片、影像、串流当中的物件辨识、人脸辨识、音频辨识或动态检测等。

请一并参阅图3以及图4，图3示出了在一些实施例当中步骤S220的详细步骤S221至S225的流程图。图4示出了在一些实施例当中处理单元140当中各元件执行步骤S221至S225的示意图。

如图4所示，假设在初始状态下，超参数的初始值为超参数HP1，超网络参数的初始值为超网络参数HNP1。

如图3及图4所示，在步骤S221中，由资料增强模型142基于超参数HP1对训练样本TD进行资料增强产生增强训练样本ETD。在步骤S222中，由超网络144基于超网络参数HNP1将超参数HP1转换为第一分类模型参数MP1。

请一并参阅图5中A部分，其示出了根据本公开文件的一些实施例中步骤S222由超网络144基于超网络参数HNP1将超参数HP1转换为第一分类模型参数MP1的示意图。如图5中A部分所示，步骤S222是用以将资料增强空间SP1当中的一个资料点(即超参数HP1)映射至分类参数空间SP2当中的一个资料点(即第一分类模型参数MP1)。

于图5中A部分中，资料增强空间SP1是以两个轴向的平面坐标系为例，举例来说，其中一个轴向可以代表资料增强时旋转角度的角度大小，另一个轴向可以表示资料增强时尺寸缩放的比例大小，因此资料点位于资料增强空间SP1的不同位置就对应到不同的资料增强设定。分类参数空间SP2是以三个轴向的立体坐标系为例，三个轴向可以分别代表卷积层的三个权重大小。在步骤S222当中，超网络参数HNP1用以决定超网络144如何将资料增强空间SP1当中的超参数HP1映射至分类参数空间SP2当中的第一分类模型参数MP1其间的映射关系。若超网络参数HNP1改变，则超网络144则会将超参数HP1映射至分类参数空间SP2中的其他位置。

需特别补充的是，为了说明上的方便，图5中A部分中的资料增强空间SP1与分类参数空间SP2仅仅是示例性说明而示出了两个轴向及三个轴向，本公开文件并不以此为限。实际应用中，资料增强空间SP1与分类参数空间SP2可以具有不同的维度，于一些实施例中，分类参数空间SP2是具有更多轴向的高维度空间。

如图3及图4所示，步骤S223中，由分类模型146基于第一分类模型参数MP1对增强训练样本ETD进行分类产生对应增强训练样本ETD的第一预测标签LPD1。

于步骤S224中，由处理单元140执行比较演算法将第一预测标签LPD1与训练样本TD的训练标签LTD比较产生的第一损失L1。于一些实施例中，处理单元140将第一预测标签LPD1与训练标签LTD进行交叉熵计算以得到第一损失L1。

其中，第一损失L1的大小代表分类模型146进行的分类结果是否准确，若分类模型146产生的第一预测标签LPD1与训练样本TD的训练标签LTD相同(或相似)则第一损失L1的数值较小，代表目前分类模型146采用的第一分类模型参数MP1较为准确。若分类模型146产生的第一预测标签LPD1与训练样本TD的训练标签LTD相异则第一损失L1的数值较大，代表目前分类模型146采用的第一分类模型参数MP1较不准确。

于步骤S225中，根据第一损失L1更新超网络参数HNP2。请一并参阅图5中B部分，其示出了根据本公开文件的一些实施例中步骤S225根据第一损失L1更新超网络参数HNP2的示意图。如图5中B部分所示，当知道目前分类模型146采用的第一分类模型参数MP1所对应的第一损失L1之后，可以透过反向传递至分类模型146回推得知较佳的分类模型参数MP1m以降低第一损失L1。接着，再透过反向传递至超网络144，基于较佳的分类模型参数MP1m回推得知更新后的超网络参数HNP2。于一些实施例中，是采用随机梯度下降法(Stochasticgradient descent,SGD)来寻找较佳的分类模型参数MP1m以降低第一损失L1。

如图4及图5中B部分所示，在超参数HP1维持不变的情况下，超网络144基于更新后的超网络参数HNP2会将超参数HP1映射至较佳的分类模型参数MP1m。

于部分实施例中，如图5中A部分所示，在步骤S222当中会引入多个探索值(exploration value)，这些探索值用以在超参数HP1周围形成多个探索超参数，各探索值可以分别是在各轴向上的微小差异量(例如偏转角度增加/减少0.5度、平移量增加/减少1％等)，如图5中A部分当中所示，在超参数HP1周围得到四个探索超参数HPe1～HPe4。超网络144除了将超参数HP1映射至分类参数空间SP2中的第一分类模型参数MP1，超网络144基于超网络参数HNP1将这些探索值形成的探索超参数HPe1～HPe4映射至分类参数空间SP2中的其他四个探索分类模型参数MPe1～MPe4。于图5中A部分当中，探索分类模型参数MPe1～MPe4同样邻近于原始的第一分类模型参数MP1。于一些实施例中，也可以将第一分类模型参数MP1同样视为一组探索分类模型参数。

也就是说，当加上四个探索超参数后，会将四个探索超参数HPe1～HPe4映射至另外四个探索分类模型参数MPe1～MPe4。上述探索超参数的数目为四组仅为举例说明，实际应用中探索超参数的数目并不以四组为限。

于部分实施例中，根据四个探索分类模型参数MPe1～MPe4会产生四个探索分类模型，这四个探索分类模型会各自对训练样本TD进行分类产生四个第一预测标签LPD1。于步骤S224中，将产生四个第一预测标签LPD1分别与训练标签LTD比较计算，可以分别得到与四个探索分类模型对应的四个第一损失L1。在一些实施例中，是将四个第一预测标签LPD1分别与训练标签LTD进行交叉熵计算以得到各自的第一损失L1。

于此实施例中，在步骤S225中，可以将四个探索分类模型以及其对应计算四个第一损失L1共同考虑，以将超网络参数HNP1更新为超网络参数HNP2。

请一并参阅图6，其示出了根据本公开文件的一些实施例中分类模型146根据四个探索分类模型参数MPe1～MPe4所形成的四个探索分类模型146e1～146e4的内部架构示意图。如图6所示，探索分类模型146e1～146e4每一个各自包含n个神经网络结构层SL1、SL2、SL3、SL4、SL5…SLn。于一些实施例中，每一个神经网络结构层SL1、SL2、SL3、SL4、SL5…SLn可以是卷积层(convolution layer)、池化层(pooling layer)、线性整流层、全连接层或其他种类的神经网络结构层。

其中，n为正整数，一般而言，分类模型的总层数可以根据实际应用的需求(分类的精确度、分类目标物的复杂度、输入影像的差异性)而定，一般来说，常见的层数n可以是16至128之间，但本公开文件并不以特定层数为限。

举例来说，神经网络结构层SL1及SL2可以是卷积层，神经网络结构层SL3可以是池化层，神经网络结构层SL4及SL5可以是卷积层，神经网络结构层SL6可以是池化层，神经网络结构层SL7可以是卷积层，神经网络结构层SL8可以是线性整流层，神经网络结构层SLn可以是全连接层，但本公开文件并不以此为限。

如图6所示，上述多个神经网络结构层SL1～SLn分为第一结构层部分P1以及接续于第一结构层部分P1的第二结构层部分P2。如图6所示的例子中，第一结构层部分P1包含神经网络结构层SL1～SL3，第二结构层部分P2包含神经网络结构层SL4～SLn。

用以形成四个探索分类模型146e1～146e4的四组探索分类模型参数MPe1～MPe4各自包含第一权重参数内容(用以决定第一结构层部分P1的运作)以及第二权重参数内容(用以决定第二结构层部分P2的运作)。于一些实施例中，其中四个探索分类模型146e1～146e4的第二结构层部分P2(即神经网络结构层SL4～SLn)共享相同的第二权重参数内容，神经网络结构层SL4～SLn的运作逻辑彼此相同。

也就是说，探索分类模型146e1的神经网络结构层SL4与探索分类模型146e2的神经网络结构层SL4采用相同的权重参数并以相同的逻辑运作。也就是说，探索分类模型146e1的神经网络结构层SL5与探索分类模型146e2的神经网络结构层SL5采用相同的权重参数并以相同的逻辑运作，依此类推。

另一方面，四个探索分类模型146e1～146e4的第一结构层部分P1(即神经网络结构层SL1～SL3)各自具有独立的第一权重参数内容，神经网络结构层SL1～SL3的运作逻辑彼此不同。

图6中第一结构层部分P1与第二结构层部分P2的分布只是示例性说明。本公开文件并不以此为限。

于一实施例中，探索分类模型146e1～146e4各自的第一结构层部分P1至少包含第一卷积层，例如第一结构层部分P1包含神经网络结构层SL1(即为第一卷积层)，探索分类模型146e1～146e4各自的第一卷积层彼此权重参数不同。于此实施例中，其余的神经网络结构层SL2～SLn均为第二结构层部分P2(图中未示)，第二结构层部分P2包含第二卷积层以及全连接层，探索分类模型146e1～146e4各自的第二卷积层以及全连接层彼此权重参数相同。在此实施例中，由于大部分的神经网络结构层SL2～SLn都共享了相同的权重参数，仅有少数的神经网络结构层SL1采用独立的权重参数，于运算上较为简便，故整体训练速度较快且所需的运算资源较少，经过实验也可能保持一定的精准度。

请一并参阅图7以及图8，图7示出了在一些实施例当中步骤S230的详细步骤S231至S234的流程图。图8示出了在一些实施例当中处理单元140当中各元件执行步骤S231至S234的示意图。

经过图3及图4所示的步骤S220后，在进入步骤S230时，如图8所示，超参数的目前数值仍为超参数HP1，超网络参数的目前数值已更新为超网络参数HNP2。

如图7及图8所示，在步骤S231中，由超网络144基于更新后的超网络参数HNP2将超参数HP1转换为第二分类模型参数MP2，此时第二分类模型参数MP2等同于先前图5中B部分实施例中回推得知的较佳的分类模型参数MP1m。请一并参阅图9中A部分，其示出了根据本公开文件的一些实施例中步骤S231将超参数HP1转换计算第二分类模型参数MP2的示意图。如图9中A部分所示，步骤S231是用以将资料增强空间SP1当中的一个资料点(即超参数HP1)映射至分类参数空间SP2当中的一个资料点(即第二分类模型参数MP2)。

在步骤S231当中，超网络参数HNP2用以决定超网络144如何将资料增强空间SP1当中的超参数HP1映射至分类参数空间SP2当中的第二分类模型参数MP2其间的映射关系。

将图9中A部分与图5中A部分比较，由于超网络参数HNP2已经不同于先前实施例的超网络参数HNP1(如图5中A部分所示)，因此，超网络144会将相同的超参数HP1映射至分类参数空间SP2中的新的位置(即第二分类模型参数MP2)。

如图7及图8所示，步骤S232中，由分类模型146基于第二分类模型参数MP2对验证样本VD进行分类产生对应验证样本VD的第二预测标签LPD2。

于步骤S233中，由处理单元140执行比较演算法将第二预测标签LPD2与验证样本VD的验证标签LVD比较产生的第二损失L2。于一些实施例中，处理单元140将第二预测标签LPD2与验证标签LVD进行交叉熵计算以得到第二损失L2。

其中，第二损失L2的大小代表分类模型146进行的分类结果是否准确，若分类模型146产生的第二预测标签LPD2与验证样本VD的验证标签LVD相同(或相似)则第二损失L2的数值较小，代表目前分类模型146采用的第二分类模型参数MP2较为准确。若分类模型146产生的第二预测标签LPD2与验证样本VD的验证标签LVD相异则第二损失L2的数值较大，代表目前分类模型146采用的第二分类模型参数MP2较不准确。

于步骤S234中，根据第二损失L2将超参数HP1更新为超参数HP2。请一并参阅图9中B部分，其示出了根据本公开文件的一些实施例中步骤S234根据第二损失L2更新超参数HP2的示意图。如图9中B部分所示，当知道目前分类模型146采用的第二分类模型参数MP2所对应的第二损失L2之后，可以透过反向传递至分类模型146回推得知较佳的分类模型参数MP2m以降低第二损失L2。接着，再透过反向传递至超网络144，基于较佳的分类模型参数MP2m回推得知更新后的超参数HP2。于一些实施例中，是采用随机梯度下降法(Stochasticgradient descent,SGD)来寻找较佳的分类模型参数MP2m以降低第二损失L2。

如图8及图9中B部分所示，在超网络144使用的超网络参数HNP2维持不变的情况下，超网络144基于超网络参数HNP2会将更新后的超参数HP2映射至较佳的分类模型参数MP2m。

综上所述，在步骤S220中先将超网络参数HNP1更新为超网络参数HNP2。在步骤S230中基于超网络参数HNP2将超参数HP1更新为超参数HP2。当完成步骤S230，若收敛条件尚未达成，则可基于超参数HP2回到步骤S220，以超参数HP2与超网络参数HNP2为输入条件再次进行步骤S220与S230，则可再次更新超参数与超网络参数。依此类推，则可以迭代更新超网络参数以及超参数，直到满足收敛条件。

如图1所示，在机器学习系统100的训练过程中，可以根据超参数HP的内容控制资料增强模型142的资料增强操作，以及根据超参数HP(透过超网络144的转换)控制分类模型146的分类操作。此外，本公开文件中不同的探索分类模型之间可以进行权重分享，如此可以节省储存空间以及运算资源，有助于加速训练的速度。并且，本公开文件的机器学习系统100可以利用资料增强模型，增加训练样本TD的等效数量，藉此训练得到的分类模型146不需要大量的训练样本TD仍可保有较高的精准度。

目前在电脑视觉领域，深度学习的准确性主要是依赖大量已被标记好的训练资料。随着训练资料的质量、数量及多样性的提升，分类模型的效能通常会随之提升。然而，常见的状况是难以收集到高品质的资料来训练分类模型，分类模型的效能也因此提升不起来。解决这个问题的方法之一，是让专家采取手动设计资料增强的参数，例如旋转角度、翻转方式或亮度调整比例等，这些手动设计的资料增强已普遍用于训练出高效能的电脑视觉的分类模型。若找到运用机器学习自动找到决定资料增强使用的参数，将更有效率且能有更高的准确性。于本公开文件的上述实施例中，提出以超网络为基础的资料增强(hybernetwork-based augmentation,HBA)，以超网络产生多个连续性探索模型，利用梯度下降法(Gradient descent)来自动化调整资料增强所使用的超参数，并且采用了权重分享的策略来提升运算速度以及准确性，可以节省手动调整资料增强的参数的时间与人力资源。另外，不论原始训练样本是否已经足够，透过资料增强均可以有效提高准确率，降低过度拟合的问题，因此针对资料增强进行自动化的参数调整能更有效率地提高模型表现。

于应用层面上，本公开文件的机器学习方法与机器学习系统可以用在各种具有机器视觉、图像分类或是资料分类的领域，举例来说，此机器学习方法可以用在医疗影像的分类，像是可以分辨正常状态、患有肺炎、患有支气管炎、患有心脏疾病的X光影像，或是可以分辨正常胎儿、胎位不正的超音波影像。另一方面，此机器学习方法也可以用在自动驾驶收集的影像的分类，像是可以分辨正常路面、有障碍物的路面及其他车辆的路况影像。还有其他与此类似的机器学习领域，举例来说，本公开文件的机器学习方法与机器学习系统也可以用在音谱辨识、光谱辨识、大数据分析、数据特征辨识等其他有关机器学习的范畴当中。

本公开文件的另一种实施例为一种非暂态电脑可读取媒体，包含至少一指令程序，由处理器(例如图1中的处理单元140)执行该至少一指令程序以实行如图2、图3及图7的实施例中机器学习方法200。

虽然本公开的特定实施例已经揭露有关上述实施例，此些实施例不意欲限制本公开。各种替代及改良可藉由相关领域中的一般技术人员在本公开中执行而没有从本公开的原理及精神背离。因此，本公开的保护范围由所附权利要求范围确定。

Claims

1.一种机器学习方法，其特征在于，包含：

(a)取得一超参数以及一超网络参数的初始值；

(b)根据该超参数以及该超网络参数产生一第一分类模型参数，基于该第一分类模型参数针对一训练样本的分类结果更新该超网络参数；

(c)根据该超参数以及更新后的该超网络参数产生一第二分类模型参数，基于该第二分类模型参数针对一验证样本的分类结果更新该超参数；以及

(d)重复步骤(b)与(c)以更新该超网络参数以及该超参数。

2.如权利要求1所述的机器学习方法，其中步骤(b)包含：

(b1)由一资料增强模型基于该超参数对该训练样本进行资料增强产生一增强训练样本；

(b2)由一超网络基于该超网络参数将该超参数转换为该第一分类模型参数；

(b3)由一分类模型基于该第一分类模型参数对该增强训练样本进行分类产生对应该增强训练样本之一第一预测标签；以及

(b4)根据该第一预测标签与该训练样本之一训练标签比较产生之一第一损失更新该超网络参数。

3.如权利要求2所述的机器学习方法，其中步骤(b2)包含：

由该超网络基于该超网络参数以及多个探索值，将该超参数转换为对应该些探索值的多个探索分类模型参数；

其中步骤(b3)包含：

由该分类模型基于该多个探索分类模型参数分别形成多个探索分类模型，该多个探索分类模型分别对该增强训练样本进行分类产生对应该增强训练样本的多个第一预测标签；以及

其中步骤(b4)包含：

根据该多个第一预测标签与该训练样本之该训练标签比较计算与该多个探索分类模型对应的多个第一损失；以及

根据该多个探索分类模型以及其对应的该多个第一损失以更新该超网络参数。

4.如权利要求3所述的机器学习方法，其中步骤(b4)中：

将该多个第一预测标签分别与该训练标签进行一交叉熵计算以得到该多个第一损失。

5.如权利要求3所述的机器学习方法，其中该多个探索分类模型每一个各自包含多个神经网络结构层，该多个神经网络结构层分为一第一结构层部分以及接续于该第一结构层部分的一第二结构层部分，用以形成该多个探索分类模型的该多个探索分类模型参数各自包含一第一权重参数内容以及一第二权重参数内容，该第一权重参数内容用以决定该第一结构层部分的运作，该第二权重参数内容用以决定该第二结构层部分的运作。

6.如权利要求5所述的机器学习方法，其中该多个探索分类模型的该多个第二结构层部分共享相同的该些第二权重参数内容，该多个第二结构层部分的运作逻辑彼此相同。

7.如权利要求5所述的机器学习方法，其中该第一结构层部分包含至少一第一卷积层，该多个探索分类模型各自的该至少一第一卷积层彼此权重参数不同。

8.如权利要求5所述的机器学习方法，其中该第二结构层部分包含至少一第二卷积层以及至少一全连接层，该多个探索分类模型各自的该至少一第二卷积层以及该至少一全连接层彼此权重参数相同。

9.如权利要求1所述的机器学习方法，其中步骤(c)包含：

(c1)由一超网络基于更新后的该超网络参数将该超参数转换为该第二分类模型参数；

(c2)由一分类模型基于该第二分类模型参数对该验证样本进行分类产生对应该验证样本之一第二预测标签；以及

(c3)根据该第二预测标签与该验证样本的一验证标签比较产生的一第二损失更新该超参数。

10.如权利要求9所述的机器学习方法，其中步骤(c3)中：

将该第二预测标签与该验证标签进行一交叉熵计算以得到该第二损失。

11.一种机器学习系统，其特征在于，包含：

一存储单元，用以储存一超参数以及一超网络参数的初始值；

一处理单元，与该存储单元耦接，该处理单元运行一超网络以及一分类模型，该处理单元用以进行下列操作：

(a)利用该超网络根据该超参数以及该超网络参数产生一第一分类模型参数，利用该分类模型基于该第一分类模型参数产生一训练样本的分类结果，藉以更新该超网络参数；

(b)利用该超网络根据该超参数以及更新后的该超网络参数产生一第二分类模型参数，利用该分类模型基于该第二分类模型参数产生一验证样本的分类结果，藉以更新该超参数；以及

(c)重复操作(a)与(b)以迭代更新该超网络参数以及该超参数。

12.如权利要求11所述的机器学习系统，其中该处理单元更用以运行一资料增强模型，该处理单元进行的操作(a)包含：

(a1)利用该资料增强模型基于该超参数对该训练样本进行资料增强产生一增强训练样本；

(a2)利用该超网络基于该超网络参数将该超参数转换为该第一分类模型参数；

(a3)利用该分类模型基于该第一分类模型参数对该增强训练样本进行分类产生对应该增强训练样本的一第一预测标签；以及

(a4)根据该第一预测标签与该训练样本的一训练标签比较产生的一第一损失更新该超网络参数。

13.如权利要求12所述的机器学习系统，其中该处理单元进行的操作(a2)包含：

其中该处理单元进行的操作(a3)包含：

其中该处理单元进行的操作(a4)包含：

根据该多个第一预测标签与该训练样本的该训练标签比较计算与该多个探索分类模型对应的多个第一损失；以及

14.如权利要求13所述的机器学习系统，其中该处理单元进行的操作(a4)包含：

15.如权利要求13所述的机器学习系统，其中该多个探索分类模型每一个各自包含多个神经网络结构层，该多个神经网络结构层分为一第一结构层部分以及接续于该第一结构层部分的一第二结构层部分，用以形成该多个探索分类模型的该多个探索分类模型参数各自包含一第一权重参数内容以及一第二权重参数内容，该第一权重参数内容用以决定该第一结构层部分的运作，该第二权重参数内容用以决定该第二结构层部分的运作。

16.如权利要求15所述的机器学习系统，其中该多个探索分类模型的该多个第二结构层部分共享相同的该些第二权重参数内容，该多个第二结构层部分的运作逻辑彼此相同。

17.如权利要求15所述的机器学习系统，其中该第一结构层部分包含至少一第一卷积层，该多个探索分类模型各自的该至少一第一卷积层彼此权重参数不同。

18.如权利要求15所述的机器学习系统，其中该第二结构层部分包含至少一第二卷积层以及至少一全连阶层，该多个探索分类模型各自的该至少一第二卷积层以及该至少一全连阶层彼此权重参数相同。

19.如权利要求11所述的机器学习系统，其中该处理单元进行的操作(b)包含：

(b1)由该超网络基于更新后的该超网络参数将该超参数转换为该第二分类模型参数；

(b2)由该分类模型基于该第二分类模型参数对该验证样本进行分类产生对应该验证样本的一第二预测标签；以及

(b3)根据该第二预测标签与该验证样本的一验证标签比较产生的一第二损失更新该超参数。

20.一种非暂态电脑可读取媒体，其特征在于，包含至少一指令程序，由一处理器执行该至少一指令程序以实行一机器学习方法，其包含：

(a)取得一超参数以及一超网络参数的初始值；

(d)重复步骤(b)与(c)以迭代更新该超网络参数以及该超参数。