CN117634578A - 用于多媒体数据分类的神经架构搜索的系统和方法 - Google Patents

用于多媒体数据分类的神经架构搜索的系统和方法 Download PDF

Info

Publication number
CN117634578A
CN117634578A CN202310837211.XA CN202310837211A CN117634578A CN 117634578 A CN117634578 A CN 117634578A CN 202310837211 A CN202310837211 A CN 202310837211A CN 117634578 A CN117634578 A CN 117634578A
Authority
CN
China
Prior art keywords
multiplicative
connection weights
weights
connection
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310837211.XA
Other languages
English (en)
Inventor
穆斯塔法·艾尔可哈米
周衍霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN117634578A publication Critical patent/CN117634578A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

公开了用于多媒体数据分类的神经架构搜索的系统和方法。在一些实施方式中,所述方法包括:在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;使用平滑最大单位正则化值来计算训练损失;以及在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。

Description

用于多媒体数据分类的神经架构搜索的系统和方法
本申请要求:(i)于2022年8月23日提交的名称为“利用均值正则化来正则化和加速可微架构搜索(REGULARIZING AND SPEEDING UP THE DIFFERENTIABLE ARCHITECTURESEARCH WITH MEAN REGULARIZATION)”的第63/400,262号美国临时申请、(ii)于2022年8月24日提交的名称为“利用均值正则化来正则化和加速可微架构搜索(REGULARIZING ANDSPEEDING UP THE DIFFERENTIABLE ARCHITECTURE SEARCH WITH MEAN REGULARIZATION)”的第63/400,691号美国临时申请以及(iii)于2022年12月29日提交的第18/148,418号美国申请的优先权权益,所述美国申请的公开通过引用如同完全阐述一样包含于此。
技术领域
公开总体上涉及用于多媒体数据分类的神经网络。更具体地,在此公开的主题涉及对用于多媒体数据分类的神经网络的神经架构搜索的改进。
背景技术
一旦选择了架构,就可通过各种训练方法(包括例如使用反向传播的有监督训练)来训练神经网络。然而,架构的选择可能涉及耗时的试错法(trial-and-error method)。
为了解决这个问题,神经架构搜索(NAS)涉及自动设计可实现可接受的性能的深度神经网络(DNN),同时避免耗时且容易出错的人为设计。
用于执行神经架构搜索(NAS)的现有技术方法可使用候选的连续松弛(continuous relaxation)和双层优化(bi-level optimization)的一步近似。这种方法的一个问题是一些现有技术方法遭受由跳过连接的聚合引起的性能崩溃。一些现有技术NAS方法努力通过重新设计架构更新处理(例如,使用辅助跳过连接(auxiliary skipconnection)或有限跳过连接允许(limited skip connection allowance))或通过改进超网络(supernet)优化(使用例如早期停止(early stopping)、约束、扰动或黑森正则化(Hessian regularization))来解决性能崩溃问题。
一些现有技术方法可表现出过参数化超网络(over-parameterized supernet)与它的最终得出的子网络的性能之间的差异。例如,在超网络搜索阶段期间,可以以加权和的方式在特征图之间使用所有操作。当得出最终网络时,在连接的特征图之间修剪除了一个操作之外的所有操作,留下在超网络中具有最大贡献的操作。L1度量或L2度量、或者权重衰减损失的使用对于这样的现有技术方法的超网络可能是无效的。
为了克服这些问题,在此描述了用于使用减轻上述问题中的一些或全部的损失函数的系统和方法。此外,可采用各种方法(诸如,在训练的每个回合(epoch)中仅处理通道的一部分)以提高执行训练的速率。以上方法由于例如可减轻性能崩溃,所以可改进先前的方法。
发明内容
根据本公开的实施例,提供一种用于多媒体数据分类的神经网络的神经架构搜索的方法,所述方法包括:在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;使用平滑最大单位正则化值来计算训练损失;以及在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。
在一些实施例中,计算训练损失的步骤包括对损失函数进行评估;损失函数基于包括参数连接权重的多个输入;并且损失函数具有以下特性:对于第一组输入值,损失函数具有第一值,第一组输入值由第一组参数连接权重和第一组其他权重组成;对于第二组输入值,损失函数具有第二值,第二组输入值由第二组参数连接权重和第一组其他权重组成;第一组参数连接权重中的每个参数连接权重小于零;第二组参数连接权重中的一个参数连接权重小于第一组参数连接权重中的相应的参数连接权重;并且第二值小于第一值。
在一些实施例中,损失函数包括第一项和第二项,第一项是参数连接权重的交叉熵函数。
在一些实施例中,损失函数包括第一项和第二项,第二项包括多个子项,子项中的第一子项与参数连接权重中的第一参数连接权重成比例;并且子项中的第二子项与和第一参数连接权重成比例的项的误差函数成比例。
在一些实施例中,所述方法包括:在神经网络的训练的多个回合期间利用神经网络处理训练数据集,所述多个回合包括第一回合;以及针对每个回合,在减小损失函数的方向上调节神经网络的乘法连接权重和参数连接权重。
在一些实施例中,调节乘法连接权重和参数连接权重使得损失函数在三个连续回合中的每个回合减小。
在一些实施例中,调节乘法连接权重和参数连接权重使得损失函数在十个连续回合中的每个回合减小。
在一些实施例中,调节乘法连接权重和参数连接权重使得乘法连接权重中的最大乘法连接权重具有超过乘法连接权重中的第二大乘法连接权重的值达乘法连接权重中的最大乘法连接权重与最小乘法连接权重之间的差的至少2%的值。
在一些实施例中,调节乘法连接权重和参数连接权重使得最大乘法连接权重具有超过第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少5%的值。
根据本公开的实施例,提供一种用于多媒体数据分类的神经网络的神经架构搜索的系统,所述系统包括:一个或多个处理电路;以及存储器,存储指令,所述指令在由所述一个或多个处理电路执行时使得执行以下操作:在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;使用平滑最大单位正则化值来计算训练损失;以及在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。
在一些实施例中,计算训练损失的处理包括对损失函数进行评估;损失函数基于包括参数连接权重的多个输入;并且损失函数具有以下特性:对于第一组输入值,损失函数具有第一值,第一组输入值由第一组参数连接权重和第一组其他权重组成;对于第二组输入值,损失函数具有第二值,第二组输入值由第二组参数连接权重和第一组其他权重组成;第一组参数连接权重中的每个参数连接权重小于零;第二组参数连接权重中的一个参数连接权重小于第一组参数连接权重中的相应的参数连接权重;并且第二值小于第一值。
在一些实施例中,损失函数包括第一项和第二项,第一项是参数连接权重的交叉熵函数。
在一些实施例中,损失函数包括第一项和第二项,第二项包括多个子项,子项中的第一子项与参数连接权重中的第一参数连接权重成比例;并且子项中的第二子项与和第一参数连接权重成比例的项的误差函数成比例。
在一些实施例中,所述指令使得执行以下操作:在神经网络的训练的多个回合期间利用神经网络处理训练数据集,所述多个回合包括第一回合;以及针对每个回合,在减小损失函数的方向上调节神经网络的乘法连接权重和参数连接权重。
在一些实施例中,调节乘法连接权重和参数连接权重使得损失函数在三个连续回合中的每个回合减小。
在一些实施例中,调节乘法连接权重和参数连接权重使得损失函数在十个连续回合中的每个回合减小。
在一些实施例中,调节乘法连接权重和参数连接权重使得乘法连接权重中的最大乘法连接权重具有超过乘法连接权重中的第二大乘法连接权重的值达乘法连接权重中的最大乘法连接权重与最小乘法连接权重之间的差的至少2%的值。
在一些实施例中,调节乘法连接权重和参数连接权重使得最大乘法连接权重具有超过第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少5%的值。
根据本公开的实施例,提供一种用于多媒体数据分类的神经网络的神经架构搜索的系统,所述系统包括:用于处理的装置;以及存储器,存储指令,所述指令在由用于处理的装置执行时使得执行以下操作:在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;使用平滑最大单位正则化值来计算训练损失;以及在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。
在一些实施例中,计算训练损失的处理包括对损失函数进行评估;损失函数基于包括参数连接权重的多个输入;并且损失函数具有以下特性:对于第一组输入值,损失函数具有第一值,第一组输入值由第一组参数连接权重和第一组其他权重组成;对于第二组输入值,损失函数具有第二值,第二组输入值由第二组参数连接权重和第一组其他权重组成;第一组参数连接权重中的每个参数连接权重小于零;第二组参数连接权重中的一个参数连接权重小于第一组参数连接权重中的相应的参数连接权重;并且第二值小于第一值。
附图说明
在下面的部分中,将参照附图中示出的示例性实施例来描述在此公开的主题的方面,其中:
图1是根据本公开的实施例的神经网络的一部分的框图;
图2是根据本公开的实施例的神经网络的一部分的框图;
图3是根据本公开的实施例的流程图;以及
图4是根据实施例的网络环境中的电子装置的框图。
具体实施方式
在下面的具体实施方式中,阐述了许多具体细节,以便提供对公开的彻底理解。然而,本领域的技术人员将理解,可在没有这些具体细节的情况下实践公开的方面。在其他情况下,没有详细描述公知的方法、过程、组件和电路,以免模糊在此公开的主题。
贯穿本说明书对“一个实施例”或者“实施例”的引用表示结合实施例描述的特定特征、结构或特性可被包括在在此公开的至少一个实施例中。因此,在贯穿本说明书的各个地方中出现的短语“在一个实施例中”或“在实施例中”或“根据一个实施例”(或者具有相似含义的其他短语)可不必全部表示相同的实施例。此外,在一个或多个实施例中,特定特征、结构或特性可以以任何合适的方式来组合。在这方面,如在此使用的,词语“示例性”表示“用作示例、实例或说明”。在此描述为“示例性”的任何实施例将不被解释为必然优选或优于其他实施例。另外,在一个或多个实施例中,特定特征、结构或特性可以以任何合适的方式来组合。此外,根据在此讨论的上下文,单数术语可包括对应的复数形式,并且复数术语可包括对应的单数形式。相似地,带有连字符的术语(例如,“二-维”、“预-确定的”、“像素-特定的”等)可与对应的不带连字符的版本(例如,“二维”、“预确定的”、“像素特定的”等)偶尔可互换地使用,并且大写的条目(例如,“Counter Clock”、“Row Select”、“PIXOUT”等)可与对应的非大写的版本(例如,“counter clock”、“row select”、“pixout”等)互换地使用。这样的偶尔可互换的使用不应被认为彼此不一致。
此外,根据在此讨论的上下文,单数术语可包括对应的复数形式,并且复数术语可包括对应的单数形式。还应注意,在此示出和讨论的各种附图(包括组件图)仅为了说明的目的,并且不按比例绘制。例如,为了清楚,一些元件的大小可相对于其他元件被夸大。此外,如果认为合适,则在附图之中重复参考标号以指示对应的和/或相似的元件。
在此使用的术语仅为了描述一些示例实施例的目的,而不意在限制要求权利的主题。如在此使用的,除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。还将理解,当术语“包括”和/或“包含”在本说明书中使用时,说明存在陈述的特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组。
将理解,当元件或层被称为“在”另一元件或层“上”、“连接到”或者“结合到”另一元件或层时,它可直接在另一元件或层上、直接连接到或者直接结合到另一元件或层,或者可存在中间元件或层。相反,当元件或层被称为“直接在”另一元件或层“上”、“直接连接到”或者“直接结合到”另一元件或层时,不存在中间元件或层。相同的标号始终表示相同的元件。如在此使用的,术语“和/或”包括相关所列项中的一个或多个的任何组合和全部组合。
如在此使用的,术语“第一”、“第二”等用作它们之后的名词的标签,并且除非如此明确地定义,否则不表明任何类型的顺序(例如,空间、时间、逻辑等)。此外,可在两个或更多个附图之间使用相同的参考标号以表示具有相同或相似功能的部件、组件、块、电路、单元或模块。然而,这样的用法仅为了简化说明和易于讨论,并不表明这样的组件或单元的构造或结构细节在所有实施例之间都是相同的,或者这样共同引用的部件/模块是实现在此公开的示例实施例中的一些的唯一方式。
除非另外定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本主题所属领域的普通技术人员通常理解的含义相同的含义。还将理解,除非在此清楚地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文中的含义一致的含义,并且将不以理想化或过于形式化的含义进行解释。
如在此使用的,术语“模块”表示被配置为提供在此结合模块描述的功能的软件、固件和/或硬件的任何组合。例如,软件可被实现为软件包、代码和/或指令集或者指令,并且如在此描述的任何实施方式中使用的术语“硬件”可单个地或者以任何组合的形式包括例如装配件、硬连线电路系统、可编程电路系统、状态机电路系统和/或存储由可编程电路系统执行的指令的固件。模块可共同地或单独地被实现为形成较大系统(例如但不限于,集成电路(IC)、片上系统(SoC)、装配件等)的部分的电路系统。
如在此所使用的,某物的“一部分”表示该物的“至少一些”,并且因此可表示少于该物的全部。因此,事物“的一部分”包括整个事物作为特殊情况,即,整个事物是事物的一部分的示例。如在此所使用的,术语“或”应解释为“和/或”,使得例如“A或B”表示“A”或“B”或“A和B”中的任何一个。
术语“处理电路”和“用于处理的装置”中的每个在此用于表示用于处理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可包括例如专用集成电路(ASIC)、通用或专用中央处理器(CPU)、数字信号处理器(DSP)、图形处理器(GPU)以及可编程逻辑器件(诸如,现场可编程门阵列(FPGA))。在处理电路中,如在此所使用的,每个功能由被配置为执行该功能的硬件(即,硬连线)来执行,或者由被配置为执行存储在非暂时性存储介质中的指令的更通用的硬件(诸如,CPU)来执行。处理电路可被制造在单个印刷电路板(PCB)上或者分布在若干互连的PCB上。处理电路可包含其他处理电路(例如,处理电路可包括在PCB上互连的两个处理电路:FPGA和CPU)。
如在此所使用的,当方法(例如,调节)或第一参量(例如,第一变量)被称为“基于”第二参量(例如,第二变量)时,表示第二参量是该方法的输入或影响第一参量(例如,第二参量可以是计算第一参量的函数的输入(例如,唯一输入或若干输入中的一个)),或者第一参量可等于第二参量,或者第一参量可与第二参量相同(例如,存储在存储器中的与第二参量相同的一个或多个位置处)。
用于执行神经架构搜索(NAS)的现有技术方法可使用候选的连续松弛和双层优化的一步近似。然而,如上所述,一些现有技术方法遭受可由跳过连接的聚合引起的性能崩溃。一些现有技术NAS方法努力通过重新设计架构更新处理(例如,使用辅助跳过连接或有限跳过连接允许)或通过改进超网络优化(使用例如早期停止、约束、扰动或黑森正则化)来解决性能崩溃问题。
现有技术NAS方法可搜索重复堆叠的单元(cell)以构建卷积神经网络(CNN)。每个计算单元k可以是具有七个节点的有向无环图(directed acyclic graph,DAG),包括来自紧接在前的单元k-1和k-2的两个输入节点、四个中间节点和输出节点。每个节点Xi是特征图,并且节点之间的每个有向边(i,j)可包含将Xi变换为Xj的八个操作。这些操作可包括例如:卷积(例如,1×1或3×3卷积(或“conv”))、{3×3,5×5}可分离卷积(separableconvolution)或{3×3,5×5}扩张可分离卷积(dilated separable convolution)、3×3{最大,平均}池化(例如,平均池化或“avg pool”)、标识(identity)(或“跳过”或“跳过连接”)和零(或“无”)。在搜索阶段,NAS方法可从对特征图使用所有八个操作的超网络开始。为了使搜索空间连续,该方法可将特定操作的分类选择放宽到所有可能操作上的柔性最大(softmax)。
图1示出这样的神经网络的一部分,包括三个节点105、多个乘法连接权重(multiplicative connection weight)110(每个乘法连接权重110可被称为β)和多个操作115。第一节点N1和第二节点N2中的每个连接到第三节点N3。第一节点N1通过第一边111连接到第三节点N3,并且第二节点N2通过第二边112连接到第三节点N3。第一边111包括多个连接,每个连接包括乘法连接权重110和操作115。通过加法器120(加法器120可以是专用电路或由能够进行其他操作的处理电路执行的指令)对多个连接求和。在每个边中可存在两个或更多个操作(例如,如图1中所示的三个操作,或者上面列出的8个操作)。在图1中,示出了用于第一节点N1的三个乘法连接权重β1至β3、用于第二节点N2的三个乘法连接权重β4至β6、以及多个操作Op1至Op3。然而,乘法连接权重的数量和操作的数量不限于此。如果在训练之后,用于第一操作115的乘法连接权重110在一个边上是非零的,并且用于该边的剩余乘法连接权重110都是零,则在该边上,该连接是执行第一操作的连接。该方法可将参数连接权重(parametric connection weight)α定义为每个操作115的贡献的指示符。然后,可将对应的乘法连接权重110计算为:
其中,i和j是由边连接的两个节点的标识符。如在此所使用的,“参数连接权重”是当在上面的等式中代替使用时结果是乘法连接权重/>的值。因此,例如,如果则/>的集合是参数连接权重。
离散操作选择的连续松弛变为:
其中,O是操作集。
然后,架构搜索的任务简化为学习对神经网络的架构进行编码的一组连续的α变量(参数连接权重)。可通过例如利用神经网络处理有标签的数据集、对损失函数进行评估以及在减小损失函数(例如,减小损失函数的值)的方向上调节权重来执行神经网络的有监督训练,神经网络的有监督训练用于调节乘法连接权重110以及其他权重(例如,内部权重(诸如,卷积核的元素)和边权重125(下面进一步详细讨论的图2)。如在此所使用的,当损失函数的值在指示神经网络的性能正在改善的方向上变化时,损失函数“减小”。有监督训练可涉及在多个回合利用训练数据集来执行训练。对于神经网络的训练的每个回合,训练可涉及在该回合期间利用神经网络来处理训练数据集,并且在减少损失函数的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。损失函数可以是或者可包括参数连接权重的交叉熵项。在一个示例中,神经网络可用于多媒体数据分类,并且训练数据集可包括多媒体数据。
如上所述,一些这样的方法可遭受性能崩溃。在这种情况下,跳过连接可主导搜索阶段,并且网络可收敛到全跳过网络。另外,一些方法可遭受离散化的差异。在这种情况下,若干个α值可能彼此非常接近,这可能是最终为单元的一个或多个边选择最佳操作的障碍。因此,在一些实施例中,可执行均值正则化(mean regularization)。例如,均值正则化(MR)可采用如下的损失函数项:
其中,L是可作为附加正则化项添加到损失函数的均值正则化项,N是所有候选操作的数量和边的数量的乘积,λ是控制正则化强度的系数,λ可以是(但不必是)固定值或自适应值(例如,线性增大的值),并且α是候选操作的贡献权重。可看出,损失函数的该项的右手侧包括N+1个子项,每个子项与相应的参数连接权重成比例。每个α可以是(但不必是)以下之一的贡献权重:操作、边、单个通道或多个通道、块、层或特征尺寸。基于均值正则化的损失函数项是更一般的正则化(其可被称为平滑最大单位正则化(smooth maximum unitregularization))的特殊情况,基于均值正则化的损失函数项由以下等式给出:
其中,ν和μ是可采用的控制参数(例如,使得该项能够近似于一般最大输出族),erf()表示误差函数。可看出,损失函数的该项的右手侧包括2N+2个子项,子项中的一半均与相应的参数连接权重成比例,并且子项的其余部分均与“和相应的参数连接权重成比例的项的误差函数”成比例。可基于任务来选择参数ν和μ的值。例如,如果v=0.25并且μ=∞,则上面的等式简化为用于均值正则化的等式。使用这样的损失函数可导致能够避免性能崩溃和离散化差异的方法,同时在推断期间不增加计算成本。
这样的损失函数可具有以下特性:对于参数连接权重的足够负值,损失函数的值随着参数连接权重变得越来越负(即,随着负参数连接权重的绝对值增大)而减小。这样,损失函数可具有以下属性:(i)对于第一组输入值,损失函数具有第一值,第一组输入值由第一组参数连接权重和第一组其他权重组成;(ii)对于第二组输入值,损失函数可具有第二值,第二组输入值由第二组参数连接权重和第一组其他权重组成,其中,第一组参数连接权重中的每个可小于零,第二组参数连接权重中的一个可小于第一组参数连接权重中的相应的一个,并且第二值可小于第一值。
此外,可通过仅更新通道的一部分或者通过使用通道注意力来加速搜索。在仅更新通道的一部分的实施例中,对于剩余通道中的每个,输入可不变地传输到输出(例如,到下一个节点)。这可等效于针对不被更新的每个通道使用跳过连接。这样的方法可被称为部分通道(partial channel,PC)方法。为了减少由通道采样引入的随机变化,如图2中所示,可引入边权重125(例如,γ1和γ2)。
图3是在一些实施例中的方法的流程图。该方法可包括:在350,在神经网络的训练的第一回合期间利用神经网络来处理训练数据集;以及在355,在减少损失函数的方向上调节神经网络的乘法连接权重和参数连接权重。在一个示例中,可在神经网络的训练的多个回合期间利用神经网络处理训练数据集,并且针对每个回合,在减小损失函数的方向上调节神经网络的乘法连接权重和参数连接权重。在另一示例中,调节乘法连接权重和参数连接权重可使损失函数在三个连续回合中的每个回合减小。在另一示例中,调节乘法连接权重和参数连接权重可使损失函数在十个连续回合中的每个回合减小。在另一示例中,调节乘法连接权重和参数连接权重可使多个乘法连接权重中的最大乘法连接权重具有超过多个乘法连接权重中的第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少2%的值。在另一示例中,调节乘法连接权重和参数连接权重可使最大乘法连接权重具有超过第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少5%的值。由训练产生的神经网络可具有各种用途。例如,它可用于执行多媒体数据分类(例如,基于识别图像中的对象或人来对图像进行分类,或者基于识别音频记录中的口语单词来对音频记录的一部分进行分类)。在这种情况下,训练数据集可包括多媒体数据,多媒体数据包括语音数据、图像数据和文本数据中的至少一者。在一些示例中,训练数据集可包括有标签的多媒体数据,有标签的多媒体数据包括有标签的语音数据、有标签的图像数据和有标签的文本数据中的至少一者。包括神经网络的系统可在执行分类之后向用户报告分类的结果(例如,通过向用户显示结果或向用户发送通知(例如,经由短消息服务(SMS)或电子邮件))。
图4是根据实施例的网络环境400中的电子装置的框图。这样的装置可包括适于执行或被配置为执行在此公开的方法(例如,用于训练神经网络的方法)的处理电路。参照图4,网络环境400中的电子装置401可经由第一网络498(例如,短距离无线通信网络)与电子装置402通信,或者经由第二网络499(例如,长距离无线通信网络)与电子装置404或服务器408通信。电子装置401可经由服务器408与电子装置404通信。电子装置401可包括处理器420、存储器430、输入装置450、声音输出装置455、显示装置460、音频装置470、传感器模块476、接口477、触觉模块479、相机模块480、电源管理模块488、电池489、通信模块490、用户识别模块(SIM)496或天线模块497。在一个实施例中,可从电子装置401省略组件中的至少一个(例如,显示装置460或相机模块480),或者可将一个或多个其他组件添加到电子装置401。组件中的一些可被实现为单个集成电路(IC)。例如,传感器模块476(例如,指纹传感器、虹膜传感器或照度传感器)可被嵌入在显示装置460(例如,显示器)中。
处理器420可执行软件(例如,程序440),以控制电子装置401的与处理器420结合的至少一个其他组件(例如,硬件组件或软件组件),并且可执行各种数据处理或计算。
作为数据处理或计算的至少一部分,处理器420可将从另一组件(例如,传感器模块476或通信模块490)接收的命令或数据加载到易失性存储器432中,处理存储在易失性存储器432中的命令或数据,并且将产生的数据存储在非易失性存储器434中。处理器420可包括主处理器421(例如,中央处理器(CPU)或应用处理器(AP))和辅助处理器423(例如,图形处理器(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP)),辅助处理器423可独立于主处理器421进行操作或与主处理器421结合来进行操作。附加地或可选地,辅助处理器423可适合于比主处理器421消耗更少的功率,或者执行特定功能。辅助处理器423可被实现为与主处理器421分离或者是主处理器421的一部分。
辅助处理器423可在主处理器421处于非活动(例如,睡眠)状态下时代替主处理器421控制与电子装置401的组件之中的至少一个组件(例如,显示装置460、传感器模块476或通信模块490)相关的功能和状态中的至少一些,或者在主处理器421处于活动状态(例如,执行应用)时与主处理器421一起控制与电子装置401的组件之中的至少一个组件(例如,显示装置460、传感器模块476或通信模块490)相关的功能和状态中的至少一些。辅助处理器423(例如,图像信号处理器或通信处理器)可被实现为在功能上与辅助处理器423相关的另一组件(例如,相机模块480或通信模块490)的一部分。
存储器430可存储由电子装置401的至少一个组件(例如,处理器420或传感器模块476)使用的各种数据。各种数据可包括例如软件(例如,程序440)和用于与其相关的命令的输入数据或输出数据。存储器430可包括易失性存储器432或非易失性存储器434。
程序440可作为软件存储在存储器430中,并且可包括例如操作系统(OS)442、中间件444或应用446。
输入装置450可从电子装置401的外部(例如,用户)接收将由电子装置401的另一组件(例如,处理器420)使用的命令或数据。输入装置450可包括例如麦克风、鼠标或键盘。
声音输出装置455可将声音信号输出到电子装置401的外部。声音输出装置455可包括例如扬声器或接收器。扬声器可用于一般用途(诸如,播放多媒体或录音),并且接收器可用于接收呼入呼叫。接收器可被实现为与扬声器分离或者扬声器的一部分。
显示装置460可视觉地向电子装置401的外部(例如,用户)提供信息。显示装置460可包括例如显示器、全息图装置或投影仪以及用于控制显示器、全息图装置和投影仪中的相应一个的控制电路系统。显示装置460可包括适合于检测触摸的触摸电路系统或适合于测量由触摸引起的力的强度的传感器电路系统(例如,压力传感器)。
音频装置470可将声音转换为电信号,反之亦然。音频装置470可经由输入装置450获得声音,或者经由声音输出装置455或与电子装置401直接(例如,有线地)或无线地结合的外部电子装置402的耳机来输出声音。
传感器模块476可检测电子装置401的操作状态(例如,功率或温度)或电子装置401外部的环境状态(例如,用户的状态),然后生成与检测到的状态对应的电信号或数据值。传感器模块476可包括例如姿态传感器、陀螺仪传感器、大气压传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征信息传感器、温度传感器、湿度传感器或照度传感器。
接口477可支持用于电子装置401直接(例如,有线地)或无线地与外部电子装置402结合的一个或多个特定协议。接口477可包括例如高清多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子478可包括连接器,电子装置401可经由该连接器与外部电子装置402物理地连接。连接端子478可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块479可将电信号转换成可由用户经由触感或动觉识别的机械刺激(例如,振动或移动)或电刺激。触觉模块479可包括例如马达、压电元件或电刺激器。
相机模块480可拍摄静止图像或运动图像。相机模块480可包括一个或多个透镜、图像传感器、图像信号处理器或闪光灯。电源管理模块488可管理供应给电子装置401的电力。电源管理模块488可被实现为例如电源管理集成电路(PMIC)的至少一部分。
电池489可向电子装置401的至少一个组件供电。电池489可包括例如不可再充电的一次电池、可再充电的二次电池或燃料电池。
通信模块490可支持在电子装置401与外部电子装置(例如,电子装置402、电子装置404或服务器408)之间建立直接(例如,有线)通信通道或无线通信通道,并且经由建立的通信通道执行通信。通信模块490可包括一个或多个通信处理器,一个或多个通信处理器可独立于处理器420(例如,AP)进行操作并且支持直接(例如,有线)通信或无线通信。通信模块490可包括无线通信模块492(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块494(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络498(例如,短距离通信网络(诸如,蓝牙TM、无线保真(Wi-Fi)直连或红外数据协会(IrDA)的标准))或第二网络499(例如,长距离通信网络(诸如,蜂窝网络、互联网或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置通信。这些各种类型的通信模块可被实现为单个组件(例如,单个IC),或者可被实现为彼此分离的多个组件(例如,多个IC)。无线通信模块492可使用存储在用户识别模块496中的用户信息(例如,国际移动用户识别码(international mobile subscriberidentity,IMSI))在通信网络(诸如,第一网络498或第二网络499)中识别和认证电子装置401。
天线模块497可向电子装置401的外部(例如,外部电子装置)发送信号或电力,或者从电子装置401的外部(例如,外部电子装置)接收信号或电力。天线模块497可包括一个或多个天线,并且由此,适合于在通信网络(诸如,第一网络498或第二网络499)中使用的通信方案的至少一个天线可例如由通信模块490(例如,无线通信模块492)选择。然后,可经由选择的至少一个天线在通信模块490与外部电子装置之间发送或接收信号或电力。
可经由与第二网络499结合的服务器408在电子装置401与外部电子装置404之间发送或接收命令或数据。电子装置402和404中的每个可以是与电子装置401相同类型或不同类型的装置。将在电子装置401执行的操作中的全部或一些可在外部电子装置402、404或408中的一个或多个执行。例如,如果电子装置401应当自动地或者响应于来自用户或另一装置的请求来执行功能或服务,则电子装置401可请求一个或多个外部电子装置执行功能或服务的至少一部分,而不是执行功能或服务,或者除了执行功能或服务之外,电子装置401还可请求一个或多个外部电子装置执行功能或服务的至少一部分。接收请求的一个或多个外部电子装置可执行所请求的功能或服务的至少一部分、或者与请求相关的附加功能或附加服务,并且将执行的结果传送到电子装置401。电子装置401可在有或没有进一步处理结果的情况下提供结果作为对请求的回应的至少一部分。为此,例如,可使用云计算、分布式计算或客户端-服务器计算技术。
在本说明书中描述的主题和操作的实施例可在数字电子电路系统中实现,或者在计算机软件、固件或硬件(包括本说明书中公开的结构和它们的结构等同物)中实现,或者在它们的一个或多个的组合中实现。在本说明书中描述的主题的实施例可被实现为被编码在计算机存储介质上的一个或多个计算机程序(即,计算机程序指令的一个或多个模块),用于由数据处理设备执行或控制数据处理设备的操作。可选地或另外地,程序指令可被编码在人工生成的传播信号上(例如,机器生成的电信号、光信号或电磁信号),传播信号被生成以对信息进行编码用于发送到合适的接收器设备以供数据处理设备执行。计算机存储介质可以是计算机可读存储装置、计算机可读存储基底、随机或串行存取存储器阵列或装置、或者它们的组合,或者可被包括在计算机可读存储装置、计算机可读存储基底、随机或串行存取存储器阵列或装置、或者它们的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其他存储装置),或者被包括在一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其他存储装置)中。此外,在本说明书中描述的操作可被实现为由数据处理设备对存储在一个或多个计算机可读存储装置上或从其他源接收的数据执行的操作。
虽然本说明书可包含许多具体的实施细节,但是实施细节不应被解释为对任何要求权利的主题的范围的限制,而是应被解释为对特定于特定实施例的特征的描述。在本说明书中在单独的实施例的上下文中描述的特定特征也可在单个实施例中组合地实施。相反地,在单个实施例的上下文中描述的各种特征也可单独地或以任何合适的子组合在多个实施例中实施。此外,尽管以上可将特征描述为以特定组合起作用甚至最初如此要求权利,但是在一些情况下可从组合删除来自于要求权利的组合的一个或多个特征,并且要求权利的组合可针对子组合或子组合的变化。
类似地,虽然在附图中以特定次序描绘操作,但是这不应被理解为要求以示出的特定次序或以连续的次序执行这样的操作,或者执行所有示出的操作,以实现期望的结果。在特定情况下,多任务和并行处理可能是有利的。此外,以上描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都需要这样的分开,并且应理解,描述的程序组件和系统通常可一起被集成在单个软件产品中或封装到多个软件产品中。
因此,在此已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下,权利要求中阐述的动作可以以不同的次序执行,并且仍然实现期望的结果。另外,附图中描绘的处理不一定需要示出的特定次序或连续的次序以实现期望的结果。在特定实施方式中,多任务和并行处理可能是有利的。
如本领域技术人员将认识到的,在此描述的创新构思可在宽范围的应用上进行修改和变化。因此,要求权利的主题的范围不应限于以上讨论的任何特定示例性教导,而是由所附权利要求限定。

Claims (20)

1.一种用于多媒体数据分类的神经网络的神经架构搜索的方法,包括:
在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;
使用平滑最大单位正则化值来计算训练损失;以及
在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。
2.根据权利要求1所述的方法,其中,
计算训练损失的步骤包括对损失函数进行评估;
损失函数基于包括所述多个参数连接权重的多个输入;并且
损失函数具有以下特性:
对于第一组输入值,损失函数具有第一值,第一组输入值包括第一组参数连接权重和第一组其他权重;
对于第二组输入值,损失函数具有第二值,第二组输入值包括第二组参数连接权重和第一组其他权重;
第一组参数连接权重中的每个参数连接权重小于零;
第二组参数连接权重中的一个参数连接权重小于第一组参数连接权重中的相应的参数连接权重;并且
第二值小于第一值。
3.根据权利要求2所述的方法,其中,损失函数包括第一项和第二项,第一项是所述多个参数连接权重的交叉熵函数。
4.根据权利要求2所述的方法,其中,
损失函数包括第一项和第二项,第二项包括多个子项,所述多个子项中的第一子项与所述多个参数连接权重中的第一参数连接权重成比例;并且
所述多个子项中的第二子项与和第一参数连接权重成比例的项的误差函数成比例。
5.根据权利要求4所述的方法,包括:
在神经网络的训练的多个回合期间利用神经网络处理训练数据集,所述多个回合包括第一回合;以及
针对每个回合,在减小损失函数的方向上调节神经网络的所述多个乘法连接权重和所述多个参数连接权重。
6.根据权利要求5所述的方法,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得损失函数在三个连续回合中的每个回合减小。
7.根据权利要求6所述的方法,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得损失函数在十个连续回合中的每个回合减小。
8.根据权利要求5所述的方法,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得所述多个乘法连接权重中的最大乘法连接权重具有超过所述多个乘法连接权重中的第二大乘法连接权重的值达所述多个乘法连接权重中的最大乘法连接权重与最小乘法连接权重之间的差的至少2%的值。
9.根据权利要求8所述的方法,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得最大乘法连接权重具有超过第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少5%的值。
10.一种用于多媒体数据分类的神经网络的神经架构搜索的系统,包括:
一个或多个处理电路;以及
存储器,存储指令,所述指令在由所述一个或多个处理电路执行时使得执行以下操作:
在神经网络的训练的第一回合期间利用神经网络处理训练数据集,其中,训练数据集包括多媒体数据;
使用平滑最大单位正则化值来计算训练损失;以及
在减少训练损失的方向上调节神经网络的多个乘法连接权重和多个参数连接权重。
11.根据权利要求10所述的系统,其中,
计算训练损失的处理包括对损失函数进行评估;
损失函数基于包括所述多个参数连接权重的多个输入;并且
损失函数具有以下特性:
对于第一组输入值,损失函数具有第一值,第一组输入值包括第一组参数连接权重和第一组其他权重,
对于第二组输入值,损失函数具有第二值,第二组输入值包括第二组参数连接权重和第一组其他权重;
第一组参数连接权重中的每个参数连接权重小于零;
第二组参数连接权重中的一个参数连接权重小于第一组参数连接权重中的相应的参数连接权重;并且
第二值小于第一值。
12.根据权利要求11所述的系统,其中,损失函数包括第一项和第二项,第一项是所述多个参数连接权重的交叉熵函数。
13.根据权利要求11所述的系统,其中,
损失函数包括第一项和第二项,第二项包括多个子项,所述多个子项中的第一子项与所述多个参数连接权重中的第一参数连接权重成比例;并且
所述多个子项中的第二子项与和第一参数连接权重成比例的项的误差函数成比例。
14.根据权利要求13所述的系统,其中,所述指令使得执行以下操作:
在神经网络的训练的多个回合期间利用神经网络处理训练数据集,所述多个回合包括第一回合;以及
针对每个回合,在减小损失函数的方向上调节神经网络的所述多个乘法连接权重和所述多个参数连接权重。
15.根据权利要求14所述的系统,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得损失函数在三个连续回合中的每个回合减小。
16.根据权利要求15所述的系统,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得损失函数在十个连续回合中的每个回合减小。
17.根据权利要求14所述的系统,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得所述多个乘法连接权重中的最大乘法连接权重具有超过所述多个乘法连接权重中的第二大乘法连接权重的值达所述多个乘法连接权重中的最大乘法连接权重与最小乘法连接权重之间的差的至少2%的值。
18.根据权利要求17所述的系统,其中,调节所述多个乘法连接权重和所述多个参数连接权重使得最大乘法连接权重具有超过第二大乘法连接权重的值达最大乘法连接权重与最小乘法连接权重之间的差的至少5%的值。
19.根据权利要求10至权利要求18中的任意一项所述的系统,
其中,训练数据集包括有标签的多媒体数据。
20.根据权利要求10至权利要求18中的任意一项所述的系统,
其中,多媒体数据包括语音数据、图像数据和文本数据中的至少一者。
CN202310837211.XA 2022-08-23 2023-07-10 用于多媒体数据分类的神经架构搜索的系统和方法 Pending CN117634578A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202263400262P 2022-08-23 2022-08-23
US63/400,262 2022-08-23
US202263400691P 2022-08-24 2022-08-24
US63/400,691 2022-08-24
US18/148,418 US20240070455A1 (en) 2022-08-23 2022-12-29 Systems and methods for neural architecture search
US18/148,418 2022-12-29

Publications (1)

Publication Number Publication Date
CN117634578A true CN117634578A (zh) 2024-03-01

Family

ID=89996343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310837211.XA Pending CN117634578A (zh) 2022-08-23 2023-07-10 用于多媒体数据分类的神经架构搜索的系统和方法

Country Status (3)

Country Link
US (1) US20240070455A1 (zh)
KR (1) KR20240027526A (zh)
CN (1) CN117634578A (zh)

Also Published As

Publication number Publication date
KR20240027526A (ko) 2024-03-04
US20240070455A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
US20210157992A1 (en) Information processing method and terminal device
US20200349450A1 (en) Projection neural networks
US12001955B2 (en) Data processing method, device, computer equipment and storage medium
US10997233B2 (en) Multi-stage image querying
WO2017116924A1 (en) Neural network training performance optimization framework
US20220230048A1 (en) Neural Architecture Scaling For Hardware Accelerators
US10853722B2 (en) Apparatus for executing LSTM neural network operation, and operational method
US20210098001A1 (en) Information processing method and terminal device
JP7009020B2 (ja) 学習方法、学習システム、学習装置、方法、適用装置、及びコンピュータプログラム
US11636667B2 (en) Pattern recognition apparatus, pattern recognition method, and computer program product
CN111428645A (zh) 人体关键点的检测方法、装置、电子设备及存储介质
WO2021036362A1 (zh) 用于处理数据的方法、装置以及相关产品
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
US10824943B2 (en) High precision low bit convolutional neural network
CN117634578A (zh) 用于多媒体数据分类的神经架构搜索的系统和方法
US20220121908A1 (en) Method and apparatus for processing data, and related product
US11556768B2 (en) Optimization of sparsified neural network layers for semi-digital crossbar architectures
CN116797464A (zh) 计算方法、装置、计算机设备和存储介质
CN113850372A (zh) 神经网络模型训练方法、装置、系统和存储介质
Wisayataksin et al. A Programmable Artificial Neural Network Coprocessor for Handwritten Digit Recognition
US20230214646A1 (en) Method and system for searching deep neural network architecture
CN112241786B (zh) 模型超参数的确定方法及设备、计算设备和介质
WO2021082654A1 (zh) 数据处理方法、装置、计算机设备和存储介质
CN111656360B (zh) 稀疏性利用的系统和方法
CN118114752A (zh) 多目标神经架构搜索框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication