CN110533158A

CN110533158A - 模型建构方法、系统及非易失性电脑可读取记录介质

Info

Publication number: CN110533158A
Application number: CN201910440952.8A
Authority: CN
Inventors: 林政宪; 杨东庭; 杨宏毅
Original assignee: High Tech Computer Corp
Current assignee: HTC Corp
Priority date: 2018-05-25
Filing date: 2019-05-24
Publication date: 2019-12-03
Anticipated expiration: 2039-05-24
Also published as: TW202004570A; TWI767122B; US20190362230A1; CN110533158B; US11620509B2

Abstract

一种模型建构方法，其适用于用于影像识别处理的神经网络模型。此模型建构方法包含以下步骤：由处理器依据神经网络模型的多个输入以及多个输出更新神经网络模型的多个层之间的多个连接变数。多个输出代表多个影像识别结果。多个连接变数代表多个层中的每两者之间的多个连接强度。本实施可动态地训练是否保留或舍弃彼此不相邻的层之间的连接。

Description

模型建构方法、系统及非易失性电脑可读取记录介质

技术领域

本申请涉及一种神经网络模型的模型建构方法、模型建构系统及非易失性电脑可读取记录介质。具体而言，本申请涉及一种动态优化神经网络结构的模型建构方法、模型建构系统及非易失性电脑可读取记录介质。

背景技术

近年来，神经网络已经有效地应用于不同的技术领域。现有的神经网络训练方法需要预先定义模型架构。现有的神经网络训练方法不会学习各个层之间的连接关系，仅利用层之间的预定义连接路径，并不会动态搜索最佳模型架构。

发明内容

本申请的一实施方案涉及一种模型建构方法，其适用于用于影像识别处理的神经网络模型。此模型建构方法包含以下步骤：由处理器依据神经网络模型的多个输入以及多个输出更新神经网络模型的多个层之间的多个连接变数。多个输出代表多个影像识别结果。多个连接变数代表多个层中的每两者之间的多个连接强度。

于部分实施例中，其中该多个层中的该每两者彼此不相邻。

于部分实施例中，其中该多个层包含多个子层，其中该模型建构方法还包含：依据该神经网络模型的该多个输入以及该多个输出更新该多个子层之间的多个子连接变数，其中该多个子连接变数代表该多个子层中的每两者之间的多个子连接强度。

于部分实施例中，还包含：随机预设该多个连接变数。

于部分实施例中，还包含：计算该多个层中的一第一层的多个层输出的一分批变异数；以及依据该分批变异数更新该多个连接变数的一第一连接变数，其中该第一连接变数代表该多个层中的该第一层以及一第二层之间的一连接强度。

于部分实施例中，还包含：设定该多个连接变数中的一第一连接变数为一第一数值，其中该第一数值代表对应于该第一连接变数的一第一连接强度为高；设定该多个连接变数中的一第二连接变数为一第二数值，其中该第二数值代表对应于该第二连接变数的一第二连接强度为低；依据该第一连接变数以及该第二连接变数产生该多个输出中的一第一输出；以及依据该第一输出更新该第一连接变数以及该第二连接变数。

于部分实施例中，其中该第一连接变数以及该第二连接变数随机选择。

本申请的一实施方案涉及一种模型建构系统，适用于影像识别处理的神经网络模型。此模型建构系统包含存储器以及处理器。存储器用以储存至少一指令。处理器耦接于存储器。处理器用以存取并执行至少一指令以：依据神经网络模型的多个输入以及多个输出更新神经网络模型的多个层之间的多个连接变数。多个输出代表多个影像识别结果。多个连接变数代表多个层中的每两者之间的多个连接强度。

于部分实施例中，其中该多个层中的该每两者彼此不相邻。

本申请的一实施方案涉及一种非易失性电脑可读取记录介质，用以储存电脑程序，其中在执行电脑程序时，将致使一或多处理元件执行多个操作，该多个操作包含：依据神经网络模型的多个输入以及多个输出更新神经网络模型的多个层之间的多个连接变数，其中神经网络模型适用于影像识别处理，其中多个输出代表多个影像识别结果。其中多个连接变数代表多个层中的每两者之间的多个连接强度。

透过本申请的实施方式，可以动态地训练是否保留或舍弃彼此不相邻的层之间的连接。调整彼此不相邻的层之间的连接强度可以是动态地被训练。神经网络结构可以动态地达到更好的准确性和性能。

附图说明

图1为根据本申请一些实施例所示的模型建构系统；

图2为根据本发明一些实施例所示的模型建构方法的流程图；

图3为根据本申请一些实施例所示的神经网络模型；

图4为根据本发明一些实施例所示的图2中其中一个步骤的流程图；

图5为根据本发明一些实施例所示的图2中其中一个步骤的另一流程图；

图6为根据本申请的一些实施例所示的另一神经网络模型。

附图标记说明：

100：模型建构系统

110：存储器

130：处理器

200：模型建构方法

S210至S230：步骤

300、600：神经网络模型

MI1至MIN：输入

MO1至MON：输出

L1至L5：层

V13至V35：连接变数

S230A、S230B：步骤

S232A至S234A、S232B至S238B：步骤

SL11至SL15、SL21至SL23：子层

SL31至SL33、SL41至SL44、SL51至SL53：子层

VL1121至VL4144：子连接变数

具体实施方式

以下将以附图及详细叙述清楚说明本揭示内容的精神，任何所属技术领域中具有通常知识者在了解本揭示内容的实施例后，当可由本揭示内容所教示的技术，加以改变及修饰，其并不脱离本揭示内容的精神与范围。

关于本文中所使用的“电性连接”，可指二或更多个元件相互直接有实体或电性接触，或是相互间接有实体或电性接触，而“电性连接”还可指二或更多个元件相互操作或动作。

关于本文中所使用的“第一”、“第二”、……等，并非特别指称次序或顺位的意思，也并非用以限定本发明，而仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或|，系包括所述事物的任一或全部组合。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本申请。

关于本文中所使用的用词(terms)，除有特别注明外，通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本揭露的描述上额外的引导。

图1为根据本申请一些实施例所示的模型建构系统100。如图1所示，模型建构系统100包含存储器110以及处理器130。处理器130耦接于存储器110。

于一些实施例中，存储器110可以是闪存存储器、HDD、SSD(固态硬盘)、DRAM(动态随机存取存储器)或SRAM(静态随机存取存储器)。于一些实施例中，存储器110可以是存储有与机器学习方法相关联的至少一个指令的非易失性电脑可读取记录介质。处理器130可以存取和执行至少一个指令。

于一些实施例中，处理器130可以，但不限于是单个处理器或多个微处理器的集合，例如CPU或GPU。微处理器电性耦合到存储器110以便存取并根据至少一个指令，以执行上述机器学习方法。为了便于理解与说明，将在以下段落中描述机器学习方法的细节。

关于本发明的的实施方式的细节于以下参阅图2中的模型建构方法进行说明，其中图2适用于图1中的模型建构系统100的模型建构方法200的流程图。然而，本发明的实施方式并不以此为限制。

请参阅图2。图2为根据本发明一些实施例所示的模型建构方法200的流程图。然而，本发明的实施方式不以此为限制。

应注意到，模型建构方法200可应用于与图1中的模型建构系统100的结构相同或相似的系统。而为使叙述简单，以下将以图1为例进行对模型建构方法的叙述，然而本发明并不以图1的应用为限。

需注意的是，于一些实施例中，建构方法也可被实施为一电脑程序，并储存于一非暂态电脑可读取记录介质中，而使电脑、电子装置、或前述如图1中的处理器110读取此记录介质后执行此一操作方法。非暂态电脑可读取记录介质可为只读存储器、快闪存储器、软盘、硬盘、光盘、随身盘、磁带、可由网络存取的数据库或本领域技术人员可轻易想到的具有相同功能的非暂态电脑可读取记录介质。

另外，应了解到，在本实施方式中所提及的操作方法的操作，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行。

再者，在不同实施例中，这些操作亦可适应性地增加、置换、及/或省略。

请参阅图2。模型建构方法200包含以下步骤。

于步骤S210中，输入多个输入至神经网络模型并依据多个输入取得多个输出。于一些实施例中，步骤S210可由图1中的处理器130执行。

请同时参阅图3。图3为根据本申请一些实施例所示的神经网络模型300。如图3所示，神经网络模型300包含多个层L1至L5。多个连接变数V13至V35存在于多个层L1至L5之间。详细而言，连接变数V13至V35中的一者存在于多个层L1至L5中的两者之间。连接变数V13至V35中的每一者代表多个层L1至L5中的每两者之间的连接强度。

举例而言，连接变数V13存在于层L1和L3之间，且连接变数V13代表层L1和L3之间的连接强度，其余依此类推。

于步骤S230中，根据输入和输出更新神经网络模型的多个连接变数。于一些实施例中，步骤S230可由图1中的处理器130执行。依据神经网络模型300的输入MI1至MIN以及输出MO1至MON，处理器130更新连接变数V13至V35。

多个方法可用以实现步骤S230。请参阅图4。图4为根据本发明一些实施例所示的图2中的步骤S230的流程图S230A。流程S230A包含以下步骤。

于步骤S232A中，计算多个层中的一层的多个层输出的分批变异数。于一些实施例中，步骤S232A可由图1中的处理器130执行。请一并参阅图3。举例来说，假设当不同的层输入LI1至LI3输入到层L1时，相对应于层L1的层输出为层输出LO1至LO3。处理器130计算层输出LO1至LO3的分批变异数。

于步骤S234A中，依据分批变异数更新连接变数的第一连接变数，其中第一连接变数代表多个层中的一者与多个层中的另一者之间的连接强度。于一些实施例中，步骤S234A可由图1中的处理器130执行。

步骤S234A的一个范例如下。请一并参阅图3。举例而言，假设层L1的层输出LO1至LO3的分批变异数为分批变异数σ。依据分批变异数σ，处理器130更新层L1与其他层L2至L5之间的连接变数。也就是说，处理器130依据分批变异数σ更新层L1以及层L3之间的连接变数V13，处理器130依据分批变异数σ更新层L1以及层L4之间的连接变数V14，处理器130依据分批变异数σ更新层L1以及层L5之间的连接变数V15。

请参阅图5。图5为根据本申请的一些实施例所示的图2中的步骤S230的流程图S230B。步骤S230B包含以下步骤。

于步骤S232B中，设定第一连接变数为第一数值，其中第一数值代表对应于第一连接变数的第一连接强度为高。于一些实施例中，步骤S232B可由图1中的处理器130执行。

于步骤S234B中，设定第二连接变数为第二数值，其中第二数值代表对应于该第二连接变数的一第二连接强度为低。于一些实施例中，步骤S234B可由图1中的处理器130执行。

于步骤S236B中，依据第一连接变数以及第二连接变数产生第一输出。于一些实施例中，步骤S236B可由图1中的处理器130执行。

于步骤S238B中，依据第一输出更新第一连接变数以及第二连接变数。于一些实施例中，步骤S238B可由图1中的处理器130执行。

关于步骤S232B至S238B的范例如下所述。请一并参阅图3。假设代表两层之间的连接强度为高的第一数值为数值1，且代表两层之间的连接强度为低的第二数值为数值0。举例而言，于一实施例中，处理器130设定层L1与层L4之间的连接变数V14为数值1，且处理器130设定层L2与层L4之间的连接变数V24为数值0。

依据上述，于设定连接变数V13至V35中的至少一者后，处理器130输入输入MI1至神经网络模型300中并经由包含数值为1的连接变数V14和数值为0的连接变数V24的神经网络模型300，以产生对应于输入MI1的输出MO1。依据输出MO1，处理器130依据反向梯度更新连接变数V14与V24。举例而言，于一些实施例中，连接变数V14可被更新为数值0.5，而连接变数V24可被更新为1。

随同更新后的连接变数V14与V24，处理器130还输入输入MI2至神经网络模型300中并经由包含数值为0.5的连接变数V14与数值为1的连接变数V24的神经网络模型300，以产生对应于输入MI2的输出MO2。依据输出MO2，处理器130再次更新连接变数V14与V24。

于一些实施例中，依据输出MO1，处理器130产生反向梯度，其中反向梯度代表连接变数应该被调整的梯度。

应注意的是，于一些实施例中，于步骤S232B和S234B中，被设定为第一数值(举例而言，被设定为1)的至少一连接变数V13至V35由处理器130随机选择。同样地，被设定为第二数值(举例而言，被设定为0)的至少一连接变数V13至V35第二数值，由处理器130随机选择。

于一些实施例中，连接变数V13至V35的值为任二数值之间。举例而言，连接变数V13至V35为1与0之间，其中1代表最高的连接强度而0代表最低的连接强度。举另一例来说，连接变数V13至V35的值在-1与1之间，或其他任何数值。

于一些实施例中，连接变数V13至V35包含两种状态，举例而言，连接或不连接。举例而言，连接变数V13至V35可仅包含数值1和0，其中数值1代表对应的层互相连接，而数值0代表对应的层互相不连接。若是连接变数V13为1，对应的层L1和L3互相连接。若是连接变数V13为0，对应的层L1和L3互相不连接。

于一些实施例中，多个层L1至L5中互相相邻的两者原本即互相连接。于本申请的实施例中，多个层L1至L5中的两者之间的连接变数被训练。上述多个层L1至L5中的两者彼此不相邻。

于一些实施例中，在开始训练神经网络模型300之前，处理器130用以连接多个层L1至L5两两之间。也就是说，多个层L1至L5中的每两者最初由处理器130彼此连接。此外，对于每个连接关系，处理器130预设连接变数。举例而言，对于神经网络模型300，处理器连接多个层L1至L5中的每两者并预设连接变数V13至V35。于一些实施例中，连接变数V13至V35为随机预设。

请参阅图6。图6为根据本申请的一些实施例所示的神经网络模型600。如图6所示，神经网络模型600包含层L1至L5，且每一层L1至L5包含至少一子层。举例而言，层L1包含子层SL11至SL15，层L2包含子层SL21至SL23，其余依此类推。

如图6所示，子层SL11与子层SL21彼此连接，且子连接变数VL1121存在于子层SL11和子层SL21之间。子层SL22和子层SL31彼此连接，且子连接变数VL2231存在于子层SL22和子层SL31之间，其余依此类推。如上所述的子连接变数以及如图6中所示的子层之间的连接关系仅作为例示说明之用，本申请的实施方式并不以此为限。图6中的任意两个子层之间可互相连接，并包含子连接变数。子连接变数代表任意两个子层之间的连接强度。

于一些实施例中，如图1所示的处理器130依据输入至神经网络模型600的输入MI1至MIN以及对应的由神经网络模型600输出的输出MOI至MON，以更新子层SL11至SL53之间的子连接变数。

更新神经网络模型600的子连接变数的方法的细节与更新神经网络模型300的连接变数的方法类似，在此不再赘述。

应注意的是，不仅不同层的子层可以相互连接，而且同一层的子层也可以相互连接，如图6所示。

于一些实施例中，激活和更新彼此不相邻的层之间的连接变数的方式不限于图4和图5中提到的步骤。连接变数可为随机更新，经常性地更新，或使用预定义的公式更新。

于一些实施例中，神经网络模型的各层的大小不同，可以引入诸如池化、卷积或反卷积的方法以使特征尺寸匹配，并且也可以被应用于动态地更新层之间的连接变数的一些实施例中。

应注意的是，图3中的神经网络模型300以及图6中的神经网络模型600适用于影像识别处理。于一些实施例中，如图3与图6所述的输入MI1至MIN为待识别的影像，如图3与图6所述的输出MO1至MON为影像识别结果。透过上述实施例的步骤，神经网络模型300或600可由处理器自动更新神经网络模型300或600的层之间的连接，使得影像识别结果可以被改良为更准确或更正确。

透过上述实施例的步骤，于本申请的实施例中，可以动态地训练是否保留或舍弃彼此不相邻的层之间的连接。调整彼此不相邻的层之间的连接强度可以是动态地被训练。神经网络结构可以动态地达到更好的准确性和性能。

虽然本发明已以实施例揭露如上，然而以上说明并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，应可作各种的更动与润饰，因此本发明的保护范围应以随附的权利要求范围所界定者为准。

Claims

1.一种模型建构方法，适用于用于影像识别处理的一神经网络模型，其特征在于，包含：

由一处理器依据该神经网络模型的多个输入以及多个输出更新该神经网络模型的多个层之间的多个连接变数，

其中该多个输出代表多个影像识别结果，

其中该多个连接变数代表该多个层中的每两者之间的多个连接强度。

2.如权利要求1所述的模型建构方法，其特征在于，其中该多个层中的该每两者彼此不相邻。

3.如权利要求1所述的模型建构方法，其特征在于，其中该多个层包含多个子层，其中该模型建构方法还包含：

依据该神经网络模型的该多个输入以及该多个输出更新该多个子层之间的多个子连接变数，

其中该多个子连接变数代表该多个子层中的每两者之间的多个子连接强度。

4.如权利要求1所述的模型建构方法，其特征在于，还包含：

随机预设该多个连接变数。

5.如权利要求1所述的模型建构方法，其特征在于，还包含：

计算该多个层中的一第一层的多个层输出的一分批变异数；以及

依据该分批变异数更新该多个连接变数的一第一连接变数，

其中该第一连接变数代表该多个层中的该第一层以及一第二层之间的一连接强度。

6.如权利要求1所述的模型建构方法，其特征在于，还包含：

设定该多个连接变数中的一第一连接变数为一第一数值，其中该第一数值代表对应于该第一连接变数的一第一连接强度为高；

设定该多个连接变数中的一第二连接变数为一第二数值，其中该第二数值代表对应于该第二连接变数的一第二连接强度为低；

依据该第一连接变数以及该第二连接变数产生该多个输出中的一第一输出；以及

依据该第一输出更新该第一连接变数以及该第二连接变数。

7.如权利要求6所述的模型建构方法，其特征在于，其中该第一连接变数以及该第二连接变数随机选择。

8.一种模型建构系统，适用于影像识别处理的一神经网络模型，其特征在于，包含：

一存储器，用以储存至少一指令；以及

一处理器，耦接于该存储器，其中该处理器用以存取并执行该至少一指令以：

依据该神经网络模型的多个输入以及多个输出更新该神经网络模型的多个层之间的多个连接变数，

其中该多个输出代表多个影像识别结果，

9.如权利要求8所述的模型建构系统，其特征在于，其中该多个层中的该每两者彼此不相邻。

10.一种非易失性电脑可读取记录介质，用以储存一电脑程序，其特征在于，在执行该电脑程序时，将致使一或多处理元件执行多个操作，该多个操作包含：

依据一神经网络模型的多个输入以及多个输出更新该神经网络模型的多个层之间的多个连接变数，其中该神经网络模型适用于影像识别处理，

其中该多个输出代表多个影像识别结果，