CN117633608A - 利用去噪扩散模型对输入干扰进行通用净化的系统和方法 - Google Patents
利用去噪扩散模型对输入干扰进行通用净化的系统和方法 Download PDFInfo
- Publication number
- CN117633608A CN117633608A CN202311109626.1A CN202311109626A CN117633608A CN 117633608 A CN117633608 A CN 117633608A CN 202311109626 A CN202311109626 A CN 202311109626A CN 117633608 A CN117633608 A CN 117633608A
- Authority
- CN
- China
- Prior art keywords
- input data
- data set
- noise
- training
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000746 purification Methods 0.000 title description 4
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims description 46
- 238000009826 distribution Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 37
- 238000013528 artificial neural network Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000003287 optical effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000004519 manufacturing process Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 9
- 230000006735 deficit Effects 0.000 description 9
- 230000003042 antagnostic effect Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 230000001902 propagating effect Effects 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000002604 ultrasonography Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000010926 purge Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007921 spray Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005202 decontamination Methods 0.000 description 1
- 230000003588 decontaminative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001429 stepping effect Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
提供了利用去噪扩散模型对输入干扰进行通用净化的系统和方法。一种存储指令的计算机程序产品,当由计算机执行时,所述指令使计算机进行以下操作:从传感器接收输入数据;利用输入数据生成训练数据集,其中通过创建输入数据的一个或多个副本并将噪声添加到一个或多个副本来创建训练数据集;将训练数据集发送到扩散模型,其中扩散模型被配置成通过以下方式重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的一个或多个副本,以创建经修改的输入数据集;将经修改的输入数据集发送到固定分类器;以及响应于由固定分类器获得的经修改的输入数据集的分类的多数投票,输出与输入数据相关联的分类。
Description
技术领域
本公开涉及利用机器学习对图像(或其他输入)的增强和处理。
关于联邦资助研究的声明
本发明在美国国家科学基金会授予的政府资助下做出,授予号为1190060-430433。政府可能具有本发明的某些权利。
背景技术
机器学习分类器已经表明在测试时易于损坏和受干扰。这种干扰/损坏可能是自然发生的(常见损坏)或最坏情况下是对抗性干扰,其中输入域中的小变化可能导致错误预测。自然损坏通常改变图像的所有像素,并且这种损坏对于人类感知是可见的。另一方面,有两种主要类型的对抗性干扰,范数限界的干扰和基于补丁的干扰。范数限界的干扰也以有限的(由lp范数限界的)强度改变图像的所有像素,而基于补丁的干扰仅改变图像的子区域内的像素,但是可以将这些像素的值改变为图像的像素范围内的任何值。
由于三种类型干扰的这种非常不同的性质,尽管已经提出了针对本领域已知的一种或两种类型干扰训练鲁棒模型的方法,例如用于对抗性净化、对抗性鲁棒和鲁棒视觉变换器的扩散模型。可能没有一种方法可以使模型在所有三种类型的干扰下都是鲁棒的。本发明提出了一种框架,该框架将使既被预训练又被微调的分类器对常见的损坏和对抗性干扰是鲁棒的。
发明内容
第一实施例公开了一种用于训练机器学习网络的计算机实现的方法。一种用于训练机器学习网络的计算机实现的方法包括:从传感器接收输入数据,其中输入数据指示图像、雷达、声纳或声音信息;利用输入数据生成训练数据集,其中通过创建输入数据的一个或多个副本并将具有相同均值和方差的噪声添加到一个或多个副本中的每一个来创建训练数据集;将训练数据集发送到扩散模型,其中扩散模型被配置成通过以下方式由扩散模型重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的一个或多个副本,以创建经修改的输入数据集;将经修改的输入数据集发送到固定分类器;以及响应于由固定分类器获得的经修改的输入数据集的分类的多数投票,输出与输入数据相关联的分类。
第二实施例公开了一种包括机器学习网络的系统。该系统包括配置成从传感器接收输入数据的输入接口,其中传感器包括相机、雷达、声纳或麦克风。该系统还包括与输入接口通信的处理器,其中处理器被编程为:从传感器接收输入数据,其中输入数据指示图像、雷达、声纳或声音信息;利用输入数据生成训练数据集,其中训练数据集包括数据的多个副本,所述数据的多个副本包括噪声;通过以下方式来重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的多个副本,以创建经修改的输入数据集;以及响应于从经修改的输入数据集获得的分类的多数投票,输出与输入数据相关联的最终分类。
第三实施例公开了一种存储指令的计算机程序产品,当由计算机执行时,所述指令使计算机进行以下操作:从传感器接收输入数据;利用输入数据生成训练数据集,其中通过创建输入数据的一个或多个副本并将噪声添加到一个或多个副本来创建训练数据集;将训练数据集发送到扩散模型,其中扩散模型被配置成通过以下方式重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的一个或多个副本,以创建经修改的输入数据集;将经修改的输入数据集发送到固定分类器;以及响应于由固定分类器获得的经修改的输入数据集的分类的多数投票,输出与输入数据相关联的分类。
附图说明
图1示出了用于训练神经网络的系统100。
图2描绘了实现用于注释数据的系统的数据注释系统200。
图3示出了分类器的实施例。
图4是神经网络系统利用扩散模型学习噪声或干扰数据集的示例性流程图400。
图5描绘了计算机控制机器10和控制系统12之间的交互的示意图。
图6描绘了图1的控制系统的示意图,该控制系统配置为控制载具,该载具可以是部分自主载具或部分自主机器人。
图7描绘了图1的控制系统的示意图,该控制系统被配置为控制制造系统(例如生产线的一部分)的制造机器,例如冲头切割机、切割机或枪钻。
图8描绘了图1的控制系统的示意图,该控制系统被配置为控制具有至少部分自主模式的电动工具,例如电钻或驱动器。
图9描绘了配置为控制自动个人助理的图1的控制系统的示意图。
图10描绘了图1的控制系统的示意图,该控制系统被配置为控制监控系统,例如控制访问系统或监督系统。
图11描绘了图1的控制系统的示意图,该控制系统被配置为控制成像系统,例如MRI装置、x射线成像装置或超声波装置。
具体实施方式
本文描述本公开的实施例。然而,应理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种和替代形式。附图不一定是按比例的;一些特征可以被放大或最小化以示出特定组件的细节。因此,本文公开的特定结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以不同方式采用各种实施例的代表性基础。如本领域普通技术人员将理解的,参考任一附图所示和描述的各种特征可以与一个或多个其他附图中所示的特征相组合,以产生未明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,对于特定应用或实现,与本公开的教导一致的特征的各种组合和修改可以是合乎期望的。
先前的工作可能集中于三种类型的干扰的子集(基于补丁的最坏情况干扰,或者具有范数限界的最坏情况干扰的常见损坏),而不是集中于全部这些干扰。本发明中提出的鲁棒方法对于所有干扰类型以及具有不同架构或参数的分类器是通用的。
由于以下几个原因,改进模型在测试时对损坏/干扰的鲁棒性已经表明是一项困难的任务:第一,损坏和干扰在训练期间可能是看不见的,而机器学习模型尽管它们具有逼近几乎任何函数的大容量,但依赖于学习给定数据分布的最佳表示,并且通常不能对未知数据分布执行得很好;第二,即使人们可以在测试时估计损坏/干扰的类型和严重性,并且将模拟样本添加到训练数据中,但是一些损坏/干扰具有非常不同的性质,仍然难以学习对所有损坏/干扰都鲁棒的表示。
为了解决这个问题,下面公开的实施例可以利用去噪扩散模型(例如,https://arxiv.org/abs/2006.11239)作为用于常见的损坏和最坏情况的干扰的通用的净化器。去噪扩散模型可以学习以在具有已知方差和零均值的高斯噪声下重建图像。它还可以用于从随机噪声图像的图像生成,其中每个像素值是从高斯分布中随机抽取的。由于随机噪声图像是对于任何图像的最强高斯噪声损坏,这表明去噪扩散模型可以在严重的高斯噪声损坏下重建图像。然后,系统可以提出用添加的高斯噪声进一步“损坏”测试图像,并且然后使用去噪扩散模型来重建干净的图像。想法是,添加的高斯噪声将对损坏或干扰进行损坏,并且由于去噪扩散模型从没有损坏或干扰的训练数据分布中学习,所以重建的图像也应该处于这样的分布中并因此接近干净图像。因此,只要去噪扩散模型和图像分类器是根据相同的数据分布训练的,分类器应该能够对重建的图像执行正确的分类。
该系统可以进一步利用去噪扩散模型的随机性质来改进净化性能。由于具有相同输入图像的模型的任何两次不同执行将给出不同的重建,因此该系统和方法可以多次运行上述噪声和去噪过程以获得多个重建的图像。之后,它于是可以将这些图像的分类器预测的多数投票取作最终的预测类别。
该系统和方法可以假设训练数据分布Dtr由一组具有相应类别标签的图像组成,这些图像被用于训练图像分类器和具有反向噪声方差调度αt的去噪扩散模型/>
关于去噪扩散模型,去噪扩散模型h通过扩散处理生成图像。它学习反转噪声处理其中xo是从训练数据分布中采样的原始图像,并且βt是调度的(固定的或学习的)噪声方差。噪声处理将数据从训练数据分布随时间(t=1,...,T)变换为纯随机噪声图像。反向(去噪)处理然后通过随后向时间(t=T,...,1)对噪声进行去噪,从来自随机高斯噪声图像的训练数据分布生成图像。为了训练扩散模型h,给定从训练数据采样的干净图像/> 随机采样步长和噪声方差调度αt,采样有噪声的图像
并且最小化x和h(xt,t)之间的差。
对于常见和最坏情况的损坏,假设x~Dtr是从训练数据分布中采样的干净图像,然后给定严重性级别s,常见损坏函数将x转换为损坏的图像
损坏的x=ε(x,s) (等式2)
其中ε可以是高斯噪声、散粒噪声、运动模糊、变焦模糊、压缩、亮度变化等。这些类型的损坏是分类器不可知的,这意味着损坏的图像ε(x,s)独立于将消耗损坏的图像的分类器或机器学习模型。
另一方面,最坏情况的干扰取决于分类器f及其训练损失函数L。给定干净的图像x,最坏情况的干扰图像是
A(x,δ,s)=\argminδL(f(A(x,δ,s))),其在约束C(δ,s)下 (等式3)
对于范数限界干扰,应用函数A是像素值范围的加法和限幅,并且约束C(.)是范数约束,即||δ||p≤s;对于基于补丁的干扰,应用函数A是重叠的(替换像素值),并且约束C(.)是尺寸和形状约束,即δ≤s的像素数量,并且δ是矩形。
给定图像该图像可能处于常见损坏、范数限界最坏情况干扰和基于补丁的最坏情况干扰下但是具有未知的严重性和未知的损坏类型,系统和方法可以净化该干扰,或者通过以下方式在训练数据分布内重建x为x’
这里t是取决于损坏/干扰的严重性的预定整数。
该系统然后可以使用(等式2)来估计x’K次,获得x’={x’1,x’2,...,x’K};并且输入x的最终预测类别为
对于给定的干净图像x,结合(等式4)和(等式5),该系统可以获得y’作为K副本净化预测。最后,该系统可以使用扩散模型h和分类器f来定义在步长t的情况下对具有标签y的图像x的K拷贝净化精度为:
1(y=y’)
其中y’=majority(f(x)))x′i=h(x+ρ,t),
注意,实施例也可以工作用于1-D信号,例如音频。此外,该系统和方法可以不对图像分类器f做出假设,这意味着本发明是分类器不可知的,并且可以应用于图像分类器的任何架构和参数,只要分类器和扩散模型是在相同的数据分布上训练的。此外,可以通过x′上的微调f来进一步提高分类器的精度。
图1示出了用于训练神经网络的系统100。系统100可以包括用于访问神经网络的训练数据192的输入接口。例如,如图1所示,输入接口可以由数据存储接口180构成,该数据存储接口可以从数据存储部190访问训练数据192。例如,数据存储接口180可以是存储器接口或持久存储接口,例如硬盘或SSD接口,但也可以是个人、本地或广域网络接口,例如蓝牙、Zigbee或Wi-Fi接口或以太网或光纤接口。数据存储部190可以是系统100的内部数据存储部,诸如硬盘驱动器或SSD,但也可以是外部数据存储部,例如,网络可访问的数据存储部。
在一些实施例中,数据存储部190还可以包括神经网络的未训练版本的数据表示194,系统100可以从数据存储部190访问该数据表示。然而,将理解,训练数据192和未训练神经网络的数据表示194也可以分别从不同的数据存储部中访问,例如,通过数据存储接口180的不同子系统。每个子系统可以是如上所述的数据存储接口180的类型。在其他实施例中,未训练神经网络的数据表示194可以由系统100基于神经网络的设计参数在内部生成,并且因此可以不显式地存储在数据存储部190上。系统100还可以包括处理器子系统160,其可以被配置为在系统100的操作期间提供迭代函数,作为要训练的神经网络层的堆叠的替代。在一个实施例中,被替换的层堆叠的各个层可以具有相互共享的权重,并且可以接收前一层的输出作为输入,或者对于层堆栈的第一层,接收初始激活和层堆叠的输入的一部分作为输入。系统还可以包括多个层。处理器子系统160可以进一步配置为使用训练数据192迭代训练神经网络。这里,处理器子系统160的训练迭代可以包括前向传播部分和后向传播部分。处理器子系统160可以被配置为通过以下方式来执行前向传播部分:除了定义可以执行的前向传播部分的其他操作外,还确定迭代函数的平衡点,在该平衡点处迭代函数收敛到固定点,其中,确定平衡点包括使用数值根查找算法来找到迭代函数减去其输入的根解;以及提供平衡点来代替神经网络中的层堆叠的输出。系统100还可以包括输出接口,用于输出经训练神经网络的数据表示196,该数据也可以称为经训练模型数据196。例如,也如图1所示,输出接口可以由数据存储接口180构成,在这些实施例中,所述接口是输入/输出(“IO”)接口,通过该接口,经训练模型数据196可以存储在数据存储部190中。例如,定义“未训练”神经网络的数据表示194可以在训练期间或之后被替换,至少部分替换为经训练神经网络的数据表示196,因为神经网络的参数,例如神经网络的权重、超参数和其他类型的参数,可以适于在训练数据192上反映训练。在图1中,还通过参考数据存储部190上的相同数据记录的附图标记194、196来说明这一点。在其他实施例中,数据表示196可以与定义“未训练”神经网络的数据表示194分开存储。在一些实施例中,输出接口可以与数据存储接口180分离,但通常可以是如上所述的数据存储接口180的类型。
图2描绘了实现用于注释数据的系统的数据注释系统200。数据注释系统200可以包括至少一个计算系统202。计算系统202可以包括至少一个处理器204,该处理器204操作性地连接到存储器单元208。处理器204可以包括实现中央处理单元(CPU)206的功能的一个或多个集成电路。CPU 206可以是商用处理单元,其实现诸如x86、ARM、Power或MIPS指令集系列之一的指令集。在操作期间,CPU 206可以执行从存储器单元208检索的存储的程序指令。存储的程序指令可以包括控制CPU 206的操作以执行本文描述的操作的软件。在一些示例中,处理器204可以是将CPU 206、存储器单元208、网络接口和输入/输出接口的功能集成到单个集成设备中的片上系统(SoC)。计算系统202可以实现用于管理操作的各个方面的操作系统。
存储器单元208可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器,例如NAND闪存、磁性和光学存储介质,或者当计算系统202被停用或丢失电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如,存储器单元208可以存储机器学习模型210或算法、机器学习模型210的训练数据集212、原始源数据集215。
计算系统202可以包括网络接口设备222,其被配置为提供与外部系统和设备的通信。例如,网络接口设备222可以包括由电气和电子工程师协会(IEEE)802.11系列标准定义的有线和/或无线以太网接口。网络接口设备222可以包括用于与蜂窝网络(例如,3G、4G、5G)通信的蜂窝通信接口。网络接口设备222可以进一步配置为向外部网络224或云提供通信接口。
外部网络224可以称为万维网或互联网。外部网络224可以在计算设备之间建立标准通信协议。外部网络224可以允许在计算设备和网络之间容易地交换信息和数据。一个或多个服务器230可以与外部网络224通信。
计算系统202可以包括输入/输出(I/O)接口220,其可以被配置为提供数字和/或模拟输入和输出。I/O接口220可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(USB)接口)。
计算系统202可以包括人机接口(HMI)设备218,该设备218可以包括使系统200能够接收控制输入的任何设备。输入设备的示例可以包括人机接口输入,例如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统202可以包括显示设备232。计算系统202可以包括用于将图形和文本信息输出到显示设备232的硬件和软件。显示设备232可以包括电子显示屏、投影仪、打印机或用于向用户或操作员显示信息的其他适当设备。计算系统202可以进一步配置为允许通过网络接口设备222与远程HMI和远程显示设备进行交互。
系统200可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所有所描述特征的单个计算系统202,但意在通过相互通信的多个计算单元来分离和实现各种特征和功能。所选择的特定系统架构可以取决于各种因素。
系统200可以实现被配置为分析原始源数据集215的机器学习算法210。原始源数据集215可以包括原始或未处理的传感器数据,这些传感器数据可以代表用于机器学习系统的输入数据集。原始源数据集215可以包括视频、视频段、图像、基于文本的信息和原始或部分经处理的传感器数据(例如对象的雷达地图)。在一些示例中,机器学习算法210可以是设计用于执行预定功能的神经网络算法。例如,可以在汽车应用中配置神经网络算法以标识视频图像中的行人。
计算机系统200可以存储用于机器学习算法210的训练数据集212。训练数据集212可以表示用于训练机器学习算法210的一组先前构造的数据。机器学习算法210可以使用训练数据集212来学习与神经网络算法相关联的加权因子。训练数据集212可以包括一组源数据,该组源数据具有机器学习算法210试图通过学习过程复制的相应成果或结果。在该示例中,训练数据集212可以包括有行人和无行人的源视频以及相应的存在和位置信息。源视频可以包括标识行人的各种场景。
机器学习算法210可以使用训练数据集212作为输入在学习模式下操作。可以使用来自训练数据集212的数据在多个迭代中执行机器学习算法210。对于每个迭代,机器学习算法210可以基于实现的结果更新内部加权因子。例如,机器学习算法210可以将输出结果(例如,注释)与包括在训练数据集212中的结果进行比较。由于训练数据集212包括预期结果,因此机器学习算法210可以确定何时性能是可接受的。在机器学习算法210达到预定的性能水平(例如,与训练数据集212相关联的成果100%一致)之后,可以使用不在训练数据集中212中的数据来执行机器学习算法210。经训练的机器学习算法210可以应用于新的数据集以生成带注释的数据。
机器学习算法210可以被配置为标识原始源数据215中的特定特征。原始源数据215可以包括需要注释结果的多个实例或输入数据集。例如,机器学习算法210可以被配置为标识视频图像中行人的存在并注释发生的情况。机器学习算法210可以被编程为处理原始源数据215以标识特定特征的存在。机器学习算法210可以被配置为将原始源数据215中的特征标识为预定特征(例如,行人)。原始源数据215可以从各种源导出。例如,原始源数据215可以是由机器学习系统收集的实际输入数据。原始源数据215可以是为了测试系统由机器生成的。作为示例,原始源数据215可以包括来自相机的原始视频图像。
在示例中,机器学习算法210可以处理原始源数据215并输出图像表示的指示。输出还可以包括图像的增强表示。机器学习算法210可以为每个生成的输出生成置信度水平或因子。例如,超过预定高置信度阈值的置信度值可以指示机器学习算法210确信所标识的特征对应于特定特征。小于低置信度阈值的置信度值可以指示机器学习算法210具有特定特征存在的某些不确定性。
图3示出了分类器30的各种实施例。分类器可以包括嵌入部分31和分类部分32。嵌入部分31可以被配置成接收输入信号(x)并确定嵌入。分类部分32可以接收嵌入并确定分类作为输出信号。
在一些实施例中,分类部分32可以是线性分类器。例如,在一些实施例中,分类器30可以包括神经网络,并且分类部分32可以例如由全连接层给出,全连接层后面是argmax层。在一些实施例中,分类器30可以包括卷积神经网络,并且嵌入部分31可以包括多个卷积层。在另一个实施例中,分类器30可以是固定分类器或预训练分类器。
图4是神经网络系统利用扩散模型学习噪声或干扰数据集的示例性流程图400。输入可以包括预训练分类器f和去噪扩散模型h,它们在相同的数据分布上被训练。此外,输入可以包括最大扩散步长T,并且还给出了h的噪声方差调度α_t。输入还可以包括用于f和h的训练数据Dtr、可能的常见损坏和最坏情况干扰以及相应的严重性级别s的集合S。用于多数投票的净化/重建的输入的副本数量K(等式5)。净化步骤标准Cr(t)取决于应用,示例标准可以是平均干净精度和鲁棒精度之间的绝对差,或者鲁棒精度。
系统可以将t的搜索调度定义为R。例如,当使用区间为d的线性搜索时,R=[1,1+d,1+2d,...,T-mod(T,d)]。R也可以是递归的,因为在第一次迭代中使用较大的d,定位性能最佳的区间,然后减小该区间的d。对于R中的每个t’,系统可以计算平均精度差AD。可以为Dtr中的每个(x,y)计算平均精度差AD,并且然后系统计算干净精度和鲁棒精度。为了计算干净精度,系统可以利用等式6的公式,即:
其中y’=majority(f(x)))x′i=h(x+ρ,t),
为了计算鲁棒精度,对于S中的每个干扰和严重性,系统可以使用(等式2)和(等式3)生成损坏/干扰的图像,然后使用(等式6)计算精度,其中(等式6)中的x是生成的损坏的图像。然后,系统可以在S中的所有损坏/干扰和严重性上进行精度平均。
在Dtr中所有样本上计算平均干净精度和鲁棒精度,然后基于平均干净精度和鲁棒精度计算净化标准Cr(t′)
当在测试时接收到输入x时,系统可以使用(等式4)以t=t*生成{x′1,...,x′k},然后使用(等式5)输出预测的类别。
在步骤401,系统可以从一个或多个传感器接收输入数据。传感器可以是相机、雷达、x射线、声纳、扫描仪、麦克风或类似的传感器。输入数据可以包括图像、声音或其他信息。如所讨论的,输入可用于创建包括噪声的各种副本。
在步骤403,系统可以生成训练数据集。数据集可以包括原始数据集和包括噪声的数据集的干扰版本。系统可以使用扩散方差调度、扩散步骤来创建训练数据集,以制作多个副本。集合可以通过制作K个输入副本来制作,其中分别进行拷贝。这在上面有详细的解释。
在步骤405,训练数据集可以被馈送到扩散模型h中。如上所解释的,扩散模型可以用于清理图像。如上所解释的,扩散模型可以通过去除任何噪声和/或干扰来再现重建的图像。
在步骤407,系统可以获得预测的类别。分类器可以基于从扩散模型馈送的重建的净化副本来标识预测的类别。在步骤409,系统可以输出分类。可以基于多数投票输出分类。系统可以进一步利用去噪扩散模型的随机性质来改进净化性能。由于具有相同输入图像的模型的任何两次不同执行可以给出不同的重建,所以该系统和方法可以多次运行上述噪声和去噪过程以获得多个重建的图像。它操作的次数可以是随机的,或者可以是设定的。之后,它于是可以将这些图像的分类器预测的多数投票取作最终的预测类别。
图5描绘了计算机控制的机器10和控制系统12之间的交互的示意图。计算机控制的机器10可以包括如图1-4所描述的神经网络。计算机控制的机器10包括致动器14和传感器16。致动器14可以包括一个或多个致动器,并且传感器16可以包括一个或多个传感器。传感器16被配置为感测计算机控制的机器10的条件。传感器16可以被配置为将所感测的条件编码为传感器信号18,并将传感器信号18传输到控制系统12。传感器16的非限制性示例包括视频、雷达、激光雷达、超声波和运动传感器。在一个实施例中,传感器16是被配置为感测计算机控制的机器10附近环境的光学图像的光学传感器。
控制系统12被配置为从计算机控制的机器10接收传感器信号18。如下所述,控制系统12可以进一步配置为根据传感器信号计算致动器控制命令20,并将致动器控制命令20传输到计算机控制的机器10的致动器14。
如图5所示,控制系统12包括接收单元22。接收单元22可以被配置为从传感器16接收传感器信号18,并将传感器信号18变换为输入信号x。在替代实施例中,传感器信号18直接作为输入信号x接收,而无需接收单元22。每个输入信号x可以是每个传感器信号18的一部分。接收单元22可以被配置为处理每个传感器信号18以产生每个输入信号x。输入信号x可以包括对应于由传感器16记录的图像的数据。
控制系统12包括分类器24。分类器24可以被配置为使用机器学习(ML)算法,例如上面描述的神经网络,将输入信号x分类为一个或多个标签。分类器24被配置为通过参数来参数化,例如上面描述的那些参数(例如,参数θ)。参数θ可以存储在非易失性存储部26中并由其提供。分类器24被配置为从输入信号x确定输出信号y。每个输出信号y包括将一个或多个标签分配给每个输入信号x的信息。分类器24可以将输出信号y传输到转换单元28。转换单元28被配置为将输出信号y转换为致动器控制命令20。控制系统12被配置为将致动器控制命令20传输到致动器14,致动器14被配置为响应于致动器控制命令20来致动计算机控制的机器10。在另一实施例中,致动器14被配置为直接基于输出信号y来致动计算机控制的机器10。
在致动器14接收到致动器控制命令20时,致动器14被配置为执行对应于相关致动器控制命令20的动作。致动器14可以包括被配置为将致动器控制命令20变换为用于控制致动器14的第二致动器控制命令的控制逻辑。在一个或多个实施例中,替代于或附加于致动器,致动器控制命令20可用于控制显示器。
在另一实施例中,替代于或附加于计算机控制的机器10包括传感器16,控制系统12包括传感器16。替代于或附加于计算机控制的机器10包括致动器14,控制系统12还可以包括致动器14。
如图5所示,控制系统12还包括处理器30和存储器32。处理器30可以包括一个或多个处理器。存储器32可以包括一个或多个存储器设备。一个或多个实施例的分类器24(例如,ML算法)可以由控制系统12实现,该控制系统12包括非易失性存储部26、处理器30和存储器32。
非易失性存储部26可以包括一个或多个持久性数据存储设备,例如硬盘驱动器、光学驱动器、磁带驱动器、非易失固态设备、云存储或能够持久存储信息的任何其他设备。处理器30可以包括一个或多个选自高性能计算(HPC)系统的设备,包括高性能内核、微处理器、微控制器、数字信号处理器、微型计算机、中央处理单元、现场可编程门阵列、可编程逻辑器件、状态机、逻辑电路、模拟电路、数字电路、或基于驻留在存储器32中的计算机可执行指令来操纵信号(模拟或数字)的任何其他设备。存储器32可以包括单个存储器设备或多个存储器设备,包括但不限于随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存、高速缓冲存储器或能够存储信息的任何其他设备。
处理器30可以被配置为读入存储器32并执行驻留在非易失性存储部26中并且体现一个或多个实施例的一个或多个ML算法和/或方法的计算机可执行指令。非易失性存储部26可以包括一个或多个操作系统和应用程序。非易失性存储部26可以存储使用各种编程语言和/或技术创建的编译性和/或解释性计算机程序,包括但不限于单独或组合的Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/SQL。
在处理器30执行时,非易失性存储部26的计算机可执行指令可以使控制系统12实现本文公开的ML算法和/或方法中的一个或多个。非易失性存储部26还可以包括支持本文描述的一个或多个实施例的功能、特征和过程的ML数据(包括数据参数)。
体现本文描述的算法和/或方法的程序代码能够以各种不同的形式作为程序产品单独或集体分发。程序代码可以使用在其上具有计算机可读程序指令的计算机可读存储介质来分发,用于使处理器施行一个或多个实施例的方面。固有地是非暂时性的计算机可读存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性以及可移动和不可移动的有形介质,所述信息例如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质还可以包括RAM、ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、便携式致密盘只读存储器(CD-ROM)或其他光学存储部、盒式磁带、磁带、磁盘存储部或其他磁存储设备,或可用于存储所需信息并可由计算机读取的任何其他介质。计算机可读程序指令可以通过网络从计算机可读存储介质下载到计算机、另一类型的可编程数据处理装置或另一设备,或者下载到外部计算机或外部存储设备。
存储在计算机可读介质中的计算机可读程序指令可用于指引计算机、其他类型的可编程数据处理装置或其他设备以特定方式运转,使得存储在计算机可读介质中的指令产生制品,包括实现流程图或图表中指定的功能、动作、和/或操作的指令。在某些替代实施例中,流程图和图表中指定的功能、动作和/或操作可以根据一个或多个实施例重新排序、串行处理和/或并发处理。此外,与根据一个或多个实施例所示的那些相比,流程图和/或图表中的任何一个可以包括更多或更少的节点或块。可以使用适当的硬件组件(例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备)或硬件、软件和固件组件的组合来全部或部分地体现过程、方法或算法。
图6描绘了配置为控制载具50的控制系统12的示意图,该载具50可以是至少部分自主的载具或至少部分自主机器人。如图5中所示,载具50包括致动器14和传感器16。传感器16可以包括一个或多个视频传感器、雷达传感器、超声波传感器、激光雷达传感器和/或位置传感器(例如GPS)。一个或多个特定传感器中的一个或多个可以集成到载具50中。替代于或附加于上面标识的一个或多个特定传感器,传感器16可以包括软件模块,该软件模块被配置为在执行时确定致动器14的状态。软件模块的一个非限制性示例包括被配置为确定载具50附近或其他位置的当前或未来天气状态的天气信息软件模块。
载具50的控制系统12的分类器24可以配置为根据输入信号x来检测载具50附近的对象。在这种实施例中,输出信号y可以包括表征对象在载具50附近的信息。致动器控制命令20可以根据该信息确定。致动器控制命令20可用于避免与检测到的对象碰撞。
在载具50是至少部分自主载具的实施例中,致动器14可以体现在载具50的制动器、推进系统、发动机、传动系或转向中。可以确定致动器控制命令20,从而控制致动器14,使得载具50避免与检测到的对象碰撞。检测到的对象也可以根据分类器24认为它们最可能是什么来分类,例如行人或树木。根据分类,可以确定致动器控制命令20。例如在载具环境的不良照明条件或不良天气条件以及攻击期间,控制系统12可以利用鲁棒器来帮助针对对抗性条件训练网络。
在载具50是至少部分自主的机器人的其他实施例中,载具50可以是配置为施行一个或多个功能的移动机器人,所述功能例如飞行、游泳、潜水和步进。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这些实施例中,可以确定致动器控制命令20,从而可以控制移动机器人的推进单元、转向单元和/或制动单元,使得移动机器人可以避免与标识出的对象碰撞。
在另一实施例中,载具50是园艺机器人形式的至少部分自主机器人。在这样的实施例中,载具50可以使用光学传感器作为传感器16来确定载具50附近环境中植物的状态。致动器14可以是配置为喷洒化学品的喷嘴。根据植物的标识出的物种和/或标识出的状态,可以确定致动器控制命令20,以使致动器14向植物喷洒适当量的适当化学品。
载具50可以是家用电器形式的至少部分自主机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这种载具50中,传感器16可以是光学传感器,其被配置为检测将经历由家用电器进行的处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器16可以检测洗衣机内的衣物的状态。可以基于检测到的衣物状态来确定致动器控制命令20。
图7描绘了配置为控制制造系统102(例如生产线的一部分)的系统100(例如,制造机器)的控制系统12的示意图,系统100诸如冲头切割机、切割机或枪钻。控制系统12可以配置为控制致动器14,致动器14配置为控制系统100(例如,制造机器)。
系统100(例如,制造机器)的传感器16可以是配置为捕获所制造产品104的一个或多个属性的光学传感器。分类器24可以配置为根据捕获的一个或多个属性来确定所制造产品104的状态。致动器14可以配置为根据所制造产品104的确定状态,针对所制造产品104的后续制造步骤来控制系统100(例如,制造机器)。致动器14可以配置为根据所制造产品104的确定状态来控制系统100(例如,制造机器)在系统100(例如,制造机器)后续所制造产品106上的功能。例如在不良照明条件或传感器难以标识条件(例如大量灰尘)的工作条件期间,控制系统12可以利用鲁棒器来帮助针对对抗性条件训练机器学习网络。
图8描绘了配置为控制具有至少部分自主模式的电动工具150(例如电钻或驱动器)的控制系统12的示意图。控制系统12可以配置为控制致动器14,致动器14配置为控制电动工具150。
电动工具150的传感器16可以是光学传感器,其被配置为捕获工作表面152和/或正在被驱动到工作表面152中的紧固件154的一个或多个属性。分类器24可以被配置为根据捕获的属性中的一个或多个来确定工作表面152和/或紧固件154相对于工作表面152的状态。状态可以是紧固件154与工作表面152平齐。可替代地,状态可以是工作表面152的硬度。致动器14可以配置为控制电动工具150,使得电动工具150的驱动功能根据紧固件154相对于工作表面152的确定状态或工作表面152的一个或多个捕获属性来调整。例如,如果紧固件154的状态相对于工作表面152齐平,则致动器14可以不再继续驱动功能。作为另一个非限制性示例,致动器14可以根据工作表面152的硬度应用额外或更少的扭矩。例如在不良照明条件或不良天气条件期间,控制系统12可以利用鲁棒器来帮助针对对抗性条件训练机器学习网络。因此,控制系统12可以能够标识电动工具150的环境条件。
图9描绘了配置为控制自动个人助理900的控制系统12的示意图。控制系统12可以配置为控制致动器14,致动器14配置为控制自动个人助理900。自动个人助理900可以配置为控制家用电器,例如洗衣机、炉子、烤箱、微波炉或洗碗机。
传感器16可以是光学传感器和/或音频传感器。光学传感器可以被配置为接收用户902的手势904的视频图像。音频传感器可以被配置为接收用户902的语音命令。
自动个人助理900的控制系统12可以配置为确定配置为控制系统12的致动器控制命令20。控制系统12可以配置为根据传感器16的传感器信号18确定致动器控制命令20。自动个人助理900被配置为将传感器信号18传输到控制系统12。控制系统12的分类器24可以被配置为执行手势识别算法,以标识用户902做出的手势904,确定致动器控制命令20,并将致动器控制命令20传输到致动器14。分类器24可以被配置为响应于手势904从非易失性存储部中检索信息,并以适合于用户902接收的形式输出检索的信息。例如在不良照明条件或不良天气条件期间,控制系统12可以利用鲁棒器来帮助针对对抗性条件训练机器学习网络。因此,控制系统12可以能够在这样的条件期间标识手势。
图10描绘了配置为控制监控系统250的控制系统12的示意图。监控系统250可以配置为物理地控制通过门252的访问。传感器16可以配置为检测与决定是否授予访问相关的场景。传感器16可以是被配置为生成和传输图像和/或视频数据的光学传感器。控制系统12可以使用这种数据来检测人的面部。在不良照明条件期间或者在控制监控系统250的环境有入侵者的情况下,控制系统12可以利用鲁棒器来帮助针对对抗性条件训练机器学习网络。
监控系统250的控制系统12的分类器24可以配置为通过匹配存储在非易失性存储部26中的已知人员的身份来解释图像和/或视频数据,从而确定人员的身份。分类器24可以被配置为响应于图像和/或视频数据的解释而生成致动器控制命令20。控制系统12被配置为将致动器控制命令20传输到致动器14。在该实施例中,致动器14可以配置为响应于致动器控制命令20锁定或解锁门252。在其他实施例中,也可以进行非物理的逻辑访问控制。
监控系统250也可以是监督系统。在这样的实施例中,传感器16可以是被配置为检测处于监督下的场景的光学传感器,并且控制系统12被配置为控制显示器254。分类器24被配置为确定场景的分类,例如,由传感器16检测到的场景是否可疑。控制系统12被配置为响应于分类将致动器控制命令20传输到显示器254。显示器254可以配置为响应于致动器控制命令20调整显示的内容。例如,显示器254可以突出显示分类器24认为可疑的对象。
图11描绘了配置为控制成像系统1100的控制系统12的示意图,成像系统1100例如MRI装置、x射线成像装置或超声波装置。例如,传感器16可以是成像传感器。分类器24可以被配置为确定全部或部分感测到的图像的分类。分类器24可以被配置为响应于通过经训练的神经网络获得的分类来确定或选择致动器控制命令20。例如,分类器24可以将感测到的图像的区域解释为潜在异常。在这种情况下,可以确定或选择致动器控制命令20,以使显示器302显示成像并突出显示潜在异常区域。在诸如不良照明的X射线期间,控制系统12可以利用扩散模型来帮助针对对抗性条件训练机器学习网络。
本文公开的过程、方法或算法可交付至处理设备、控制器或计算机/由处理设备、控制器或计算机实现,处理设备、控制器或计算机可包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令,包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可更改地存储在诸如软盘、磁带、CD、RAM设备和其他磁性和光学介质的可写存储介质上的信息。过程、方法或算法也可以在软件可执行对象中实现。可替代地,可以使用合适的硬件组件,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备,或者硬件、软件和固件组件的组合,来整体或部分地体现这些过程、方法或算法。
虽然上面描述了示例性实施例,但这些实施例并不意图描述权利要求所涵盖的所有可能形式。本说明书中使用的词是描述词,而不是限制词,并且应理解,可以在不背离本公开的精神和范围的情况下进行各种更改。如前所述,可以组合各种实施例的特征以形成本发明进一步的实施例,这些进一步的实施例可能未明确描述或说明。虽然可能已经将各种实施例描述为在一个或多个所需特性方面提供优势或优于其他实施例或现有技术实现,但本领域普通技术人员认识到,可以权衡一个或多个特征或特性以实现所需的整体系统属性,这取决于具体的应用和实现。这些属性可以包括但不限于成本、强度、耐久性、生命周期成本、适销性、外观、包装、尺寸、适用性、重量、可制造性、易于组装等。因此,就任何实施例在一个或多个特性方面被描述为不如其他实施例或现有技术实现合乎期望而言,这些实施例并非在本公开的范围之外,并且对于特定应用可以是合乎期望的。
Claims (20)
1.一种用于训练机器学习网络的计算机实现的方法,包括:
从传感器接收输入数据,其中输入数据指示图像信息、雷达信息、声纳信息或声音信息;
利用输入数据生成训练数据集,其中所述生成包括创建输入数据的一个或多个副本并将具有相同均值和方差的噪声添加到一个或多个副本中的每一个;
利用扩散模型,通过以下方式重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的一个或多个副本,以创建经修改的输入数据集;以及
利用固定分类器,响应于由固定分类器获得的经修改的输入数据集的分类的多数投票,输出与输入数据相关联的分类。
2.根据权利要求1所述的计算机实现的方法,其中扩散模型和固定分类器二者是预训练的。
3.根据权利要求1所述的计算机实现的方法,其中所述方法包括,对于每个训练数据集,利用扩散模型和固定分类器计算干净图像。
4.根据权利要求1所述的计算机实现的方法,其中噪声包括高斯噪声、散粒噪声、运动模糊、变焦模糊、压缩或亮度变化。
5.根据权利要求1所述的计算机实现的方法,其中固定分类器和扩散模型在相同的数据分布上被训练。
6.根据权利要求1所述的计算机实现的方法,其中扩散模型被配置为通过随时间对噪声进行去噪来反转与训练数据集相关联的噪声。
7.根据权利要求1所述的计算机实现的方法,其中扩散模型被去噪。
8.根据权利要求1所述的计算机实现的方法,其中传感器是相机,并且输入数据包括从相机获得的视频信息。
9.一种包括机器学习网络的系统,包括:
输入接口,被配置成从传感器接收输入数据,其中传感器包括相机、雷达、声纳或麦克风;以及
与输入接口通信的处理器,其中处理器被编程为:
从输入接口接收输入数据,其中输入数据指示图像、雷达、声纳或声音信息;
利用输入数据生成训练数据集,其中训练数据集包括输入数据的多个副本连同噪声;
通过以下方式来重建和净化训练数据集:去除与输入数据相关联的噪声,并重建多个副本,以创建经修改的输入数据集;以及
响应于从经修改的输入数据集获得的分类的多数投票,输出与输入数据相关联的最终分类。
10.根据权利要求9所述的系统,其中噪声包括高斯噪声、散粒噪声、运动模糊、变焦模糊、压缩或亮度变化。
11.根据权利要求9所述的系统,其中输入数据指示图像,并且通过选择与从高斯分布中随机抽取的图像相关联的每个像素来生成训练数据集。
12.根据权利要求9所述的系统,其中所述系统包括扩散模型,所述扩散模型是被配置为通过扩散处理生成图像的去噪扩散模型。
13.根据权利要求12所述的系统,其中扩散模型用于重建和净化训练数据集。
14.根据权利要求9所述的系统,其中利用分类器输出最终分类。
15.一种存储指令的计算机程序产品,当由计算机执行时,所述指令使计算机进行以下操作:
从传感器接收输入数据;
利用输入数据生成训练数据集,其中通过创建输入数据的一个或多个副本并将噪声添加到一个或多个副本来创建训练数据集;
将训练数据集发送到扩散模型,其中扩散模型被配置成通过以下方式重建和净化训练数据集:去除与输入数据相关联的噪声,并重建训练数据集的一个或多个副本,以创建经修改的输入数据集;以及
利用固定分类器,响应于通过固定分类器和经修改的输入数据集获得的分类的多数投票,输出与输入数据相关联的分类。
16.根据权利要求15所述的计算机程序产品,其中输入数据包括图像、雷达、声纳或声音信息。
17.根据权利要求15所述的计算机程序产品,其中添加噪声包括将具有相同均值和相同方差的噪声添加到一个或多个副本中的每一个。
18.根据权利要求15所述的计算机程序产品,其中添加噪声包括添加具有相同均值的噪声。
19.根据权利要求15所述的计算机程序产品,其中添加噪声包括添加具有相同方差的噪声。
20.根据权利要求15所述的计算机程序产品,其中输入数据包括从麦克风获得的声音信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/900,343 US20240070451A1 (en) | 2022-08-31 | 2022-08-31 | System and method for universal purification of input perturbation with denoised diffiusion models |
US17/900343 | 2022-08-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117633608A true CN117633608A (zh) | 2024-03-01 |
Family
ID=89844680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311109626.1A Pending CN117633608A (zh) | 2022-08-31 | 2023-08-30 | 利用去噪扩散模型对输入干扰进行通用净化的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240070451A1 (zh) |
JP (1) | JP2024035192A (zh) |
CN (1) | CN117633608A (zh) |
DE (1) | DE102023207534A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118194357B (zh) * | 2024-05-16 | 2024-08-09 | 暨南大学 | 一种基于扩散去噪模型的隐私数据发布方法 |
-
2022
- 2022-08-31 US US17/900,343 patent/US20240070451A1/en active Pending
-
2023
- 2023-08-04 DE DE102023207534.2A patent/DE102023207534A1/de active Pending
- 2023-08-30 CN CN202311109626.1A patent/CN117633608A/zh active Pending
- 2023-08-30 JP JP2023139962A patent/JP2024035192A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240070451A1 (en) | 2024-02-29 |
JP2024035192A (ja) | 2024-03-13 |
DE102023207534A1 (de) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220100850A1 (en) | Method and system for breaking backdoored classifiers through adversarial examples | |
CN113962399A (zh) | 用于机器学习中学习扰动集的方法和系统 | |
US11551084B2 (en) | System and method of robust active learning method using noisy labels and domain adaptation | |
US11687619B2 (en) | Method and system for an adversarial training using meta-learned initialization | |
CN117633608A (zh) | 利用去噪扩散模型对输入干扰进行通用净化的系统和方法 | |
JP2023138492A (ja) | ランダム化およびサンプル拒否を使用して、ディープニューラルネットワークにおける事前トレーニング済みシステムのロバストネスを向上させるためのシステムおよび方法 | |
US20240070449A1 (en) | Systems and methods for expert guided semi-supervision with contrastive loss for machine learning models | |
CN116523823A (zh) | 用于半监督对象检测的鲁棒伪标签生成的系统和方法 | |
CN116258865A (zh) | 使用机器学习的图像量化 | |
JP7137018B2 (ja) | ニューラルネットワークをトレーニングするための方法 | |
US20230107917A1 (en) | System and method for a hybrid unsupervised semantic segmentation | |
CN118279638A (zh) | 用于利用教师和学生框架训练机器学习模型的系统和方法 | |
JP2024045070A (ja) | ロングテール分類用のマルチ教師グループ蒸留のためのシステム及び方法 | |
US20240112448A1 (en) | Methods and systems of generating images utilizing machine learning and existing images with disentangled content and style encoding | |
CN115482428A (zh) | 针对对抗性攻击为预训练模型预置鲁棒器的系统和方法 | |
US20230100132A1 (en) | System and method for estimating perturbation norm for the spectrum of robustness | |
US20230100765A1 (en) | Systems and methods for estimating input certainty for a neural network using generative modeling | |
CN116523952A (zh) | 利用2d和3d逐点特征估计6d目标姿态 | |
CN116894799A (zh) | 用于域泛化的数据增强 | |
CN114332551A (zh) | 学习联合潜在对抗训练的方法和系统 | |
US20230107463A1 (en) | Method and system for probably robust classification with multiclass enabled detection of adversarial examples | |
US20220101116A1 (en) | Method and system for probably robust classification with detection of adversarial examples | |
CN113168571A (zh) | 用于训练神经网络的方法 | |
US20240020526A1 (en) | Systems and methods for false positive mitigation in impulsive sound detectors | |
US20220092466A1 (en) | System and method for utilizing perturbation in a multimodal environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |