CN109564633B - 人工神经网络 - Google Patents
人工神经网络 Download PDFInfo
- Publication number
- CN109564633B CN109564633B CN201680088205.7A CN201680088205A CN109564633B CN 109564633 B CN109564633 B CN 109564633B CN 201680088205 A CN201680088205 A CN 201680088205A CN 109564633 B CN109564633 B CN 109564633B
- Authority
- CN
- China
- Prior art keywords
- neural network
- artificial neural
- random
- parameter
- randomly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
根据本发明的示例方面,提供了一种装置,该装置包括:存储器,其被配置为存储至少部分地定义人工神经网络的数据;以及至少一个处理核,其被配置为利用至少一个随机修正线性单元通过将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
Description
技术领域
本发明涉及人工神经网络,诸如,例如,卷积人工神经网络。
背景技术
机器学习和机器识别有多种应用,诸如,例如,机场的自动护照控制,其中,可以将人脸的数字图像与被存储在护照中的以人脸为特征的生物统计信息作比较。
例如,机器识别的另一示例在手写或者打印文档文本识别中用于呈现可搜索书籍的内容。又一示例是行人识别,其中,最终,无人驾驶汽车由此被视为使得能够意识到前方有行人并且汽车可以避免从行人身上碾过。
除了视觉识别之外,口头语言可以是机器识别的主题。当识别到口头语言时,口头语言随后可能被输入至解析器以向数字个人助理提供命令,或者口头语言可以被提供至机器翻译程序,从而获得意思与口头语言相对应的另一语言的文本。
机器识别技术采用以此为目的而被设计的算法。例如,人工神经网络可以被用来实现机器视觉应用。人工神经网络在本文中可以被简称为神经网络。机器识别算法可以包括处理功能,在图像识别中,这种处理功能可以包括:例如,滤波(诸如,形态滤波)、阈值处理、边缘检测、模式识别和对象尺寸测量。
神经网络可以包括:例如,完全连接层和卷积层。完全连接层可以包括所有神经元都具有到相邻层上的所有神经元的连接的层,诸如,例如,前一层。例如,卷积层可以包括这样的层,在该层中,神经元接收来自前一层的一部分的输入,这个部分被称为相应字段。
发明内容
本发明由独立权利要求的特征定义。一些特定实施例在独立权利要求中被定义。
根据本发明的第一方面,提供了一种装置,包括:存储器,其被配置为存储至少部分地定义人工神经网络的数据;以及至少一个处理核,其被配置为通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,该至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
第一方面的各种实施例可以包括来自以下项目列表的至少一个特征:
·随机选择包括随机的或者伪随机的随机选择;
·数据集包括多个测试图像并且至少一个处理核被配置为改变针对每个测试图像的随机选择的值;
·至少一个处理核被配置为在人工神经网络中的第一对卷积层之间应用第一随机修正线性单元和在人工神经网络中的第二对卷积层之间应用第二随机修正线性单元;
·至少一个随机修正线性单元被配置为从负输入产生零输出;
·至少一个处理核被配置为实现人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零;
·随机选择包括值随机地或者伪随机地选自范围(1-a,1+a);
·值a是0.8;
·值a是0.3;
·人工神经网络是模式识别神经网络。
根据本发明的第二方面,提供了一种方法,包括:存储至少部分地定义人工神经网络的数据;以及通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
第二方面的各种实施例可以包括来自以下项目列表的至少一个特征:
·随机选择包括随机的或者伪随机的随机选择;
·数据集包括多个测试图像并且至少一个处理核被配置为改变针对每个测试图像的随机选择的值;
·方法进一步包括:在人工神经网络中的第一对卷积层之间应用第一随机修正线性单元,以及在人工神经网络中的第二对卷积层之间应用第二随机修正线性单元;
·至少一个随机修正线性单元被配置为从负输入产生零输出;
·方法进一步包括:实现人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零;
·随机选择包括值随机地或者伪随机地选自范围(1-a,1+a);
·值a是0.8;
·值a是0.3;
·人工神经网络是模式识别神经网络。
根据本发明的第三方面,提供了一种装置,包括:用于存储至少部分地定义人工神经网络的数据的部件;用于通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络的部件,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
根据本发明的第四方面,提供了一种非瞬态计算机可读介质,其存储有计算机可读指令的集合,该计算机可读指令的集合在由至少一个处理器执行时使装置至少存储至少部分地定义人工神经网络的数据,并且通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
根据本发明的第五方面,提供了一种计算机程序,其被配置为使根据第二方面的方法被执行。
附图说明
图1图示了能够支持本发明的至少一些实施例的示例系统;
图2图示了修正函数;
图3图示了能够支持本发明的至少一些实施例的示例装置;
图4图示了根据本发明的至少一些实施例的神经网络,以及
图5是根据本发明的至少一些实施例的方法的流程图。
具体实施方式
使用具有随机性的激励函数,能够减轻将神经网络过度训练为特定训练数据组的效果。详细地,已经发现改变定义输出的线性函数的梯度的随机修正线性单元胜过传统修正线性单元。还发现随机修正线性单元胜过噪声修正线性单元,该噪声修正线性单元使用附加的高斯噪声使输出随机化。
图1图示了能够支持本发明的至少一些实施例的示例系统。图1具有行人120正在行走的道路101的视图110。虽然在本文中根据检测行人结合图1对本发明进行了描述,但是本发明并不限于此,但是本领域的技术人员将理解,本发明更广泛地适用于在视觉、听觉或者其它种类的数据方面的机器识别。例如,根据所讨论的实施例,骑自行车者识别、手写识别、面部识别、交通标志识别、语音识别、语言识别、手语识别和/或垃圾邮件识别可能从本发明受益。
在图1中,道路101被摄像头成像。摄像头可以被配置为捕获至少部分地覆盖道路的视图110。摄像头可以被配置为对从被包括在摄像头中的图像捕获设备(诸如,电荷耦合器件(CCD))获得的图像数据进行预处理。预处理的示例包括用于增加存在于所捕获到的图像中的动态范围的黑色和白色的减少、对比度调整和/或亮度平衡。在一些实施例中,例如,图像数据还被缩放到位深度,该位深度适合于注入图像识别算法,诸如,AdaBoost。例如,预处理可以包括用于注入图像识别算法的对感兴趣的区域(诸如,区域125)的选择。根据实施例,预处理在本质上可能不存在或者受到限制。例如,摄像头可以被安装在汽车中,该汽车被配置为无人驾驶或者采集训练数据。备选地,摄像头可以被安装在汽车中,该汽车被设计为由人类驾驶员驾驶,但是如果汽车看似要撞到行人或者动物,则提供警告和/或自动制动。
从摄像头注入的图像可以被用来生成用于训练神经网络的测试数据集。这种数据集可以包括训练样本。例如,训练样本可以包括静态图像,诸如,视频图像帧或者视频短片。在要被识别到的输入数据不是视觉数据的情况下,输入数据可以包括:例如,从模数转换器获得的数字样本的向量。模数转换器可以获得例如从麦克风注入的模拟反馈,并且从模拟反馈生成样本。总之,如上所述,非视觉形式的数据还可以是机器识别的主题。例如,加速计或者旋转传感器数据可以被用来检测人是否正在行走、跑或者跌倒。由于神经网络可以被训练为视图110中的对象,训练阶段可以发生在神经网络的使用阶段或者测试阶段之前。
对利用测速数据集来训练神经网络的挑战是将神经网络过度拟合至测试数据集。由于神经网络可以包括大量参数,甚至数百万的参数,网络可以在测试数据集的识别特性方面变得专业,而不是在执行通用设置中的识别任务方面变得专业。为了控制过度拟合问题,可以在神经网络的层之间引入随机化的元素。
在神经网络的层之间引入随机化的元素的一种方式是所谓的丢弃,其中,在训练期间,激励的一半被任意地或者随机地选择并且被设置为零。例如,选择可以针对每个训练样本被重新完成。例如,丢弃可以被应用于完全连接层,其中,丢弃在完全连接层中产生了比在卷积层中更多的益处。丢弃可以被视为提供了以有效的方式近似地、指数地组合许多不同的神经网络架构的方式。丢弃通常被应用于完全连接层,其中,丢弃可以提供益处。丢弃在卷积层中似乎并没有类似的益处。
在神经网络的层之间引入随机化的元素的另一方式是随机池化,其中,确定性池化操作(诸如,平均和最大池化)被用于使卷积神经网络规范化的随机程序代替。该程序根据通过池化区内的活动而被给出的多项分布任意地挑选每个池化区内的激励。在深卷积神经网络中,池化不一定跟着每一层。因此,可以应用随机池化几次。随机池化需要同时在训练时和测试时计算针对每个区域的概率,从而导致在运行神经网络的设备中的计算负载增加。
神经网络在图1中被示意地图示为第一层130、修正函数140和第二层150。实际网络可以包括两个以上的层。修正函数140可以被功能地包括在第一层130或者第二层150中。修正函数150可以执行激励函数,并且/或者修正函数可以包括修正线性单元ReLU。第一层和第二层可以包括卷积层。备选地,第一层130和第二层150中的至少一个和可选地两个可以包括完全连接层。
修正函数140可以被配置为处理第一层130的输出,以用于输入到第二层150中。例如,修正函数140可以被配置为从具有负值的输入产生零输出,从而有效地防止负值从第一层130被注入至第二层150。传统修正函数根据函数f产生输出,使得f(x)=max(0,x)。例如,值x可以被包括在实数中,在数字系统中通过浮点值或者整数表示来表示。
所谓的噪声修正函数NReLU根据f产生输出,使得f(x)=max(0,x+N(σ(x))),其中,N是具有方差σ(x)的高斯噪声,高斯噪声被用来使修正函数的输出随机化。例如,方差可以是使用一个层的所有单元来获得的。
根据本发明,随机修正函数SReLU通过获得输出作为f(x)=max(0,bx)来操作,使得乘数随机地或者伪随机地选自范围(1-a,1+a)。例如,参数a可以采用值0.1、0.3、0.5、0.8或者0.9。例如,乘数b可以针对每个训练样本被随机地或者伪随机地重新获得。备选地,乘数b可以在神经网络的训练期间多次被随机地或者伪随机地重新获得,但是针对每个训练样本不会被单独地重新获得。例如,乘数b可以每隔10个训练样本或者每隔100个训练样本被如此重新获得。换言之,为了获得输出,随机修正函数将输入与随机选择的乘数相乘。换句话说,正输出是从正输入产生的,使得正输出成为正输入的线性函数,线性函数的梯度具有可变性。例如,可变性可以是随机的或者伪随机的。在SReLU的至少一些实施例中,没有噪声被单独地生成并且被另外添加以获得输出。对于负输入,随机修正函数可以被布置为返回零输出。
随机修正函数SReLU可以在训练时被使用,而在测试时(也被简称为在使用期间),可以使用传统修正函数,其中,在传统修正函数中,由输入x产生的输出f(x)是f(x)=max(0,x)。
如上所述,随机修正函数产生比传统修正函数和噪声修正函数两者改进的识别结果。在发明者所进行的研究中,获得了下面的结果,丢弃被可选地被用在完全连接层中:
将随机化引入至神经网络中提高了性能,因为两个相似的训练样本将会产生相似的但不相同的具有随机化的响应。因此,测试数据集有效地变得更大,从而导致性能提高。也避免了过度拟合,因为神经网络不能够精确地适应训练样本,训练样本产生随机化的、且不再相同的、或者完全确定性的输出。
图2图示了修正函数。在图的被表示为a)的上部中,图示了传统修正函数ReLU,其中,对于正x,f(x)=x,并且对于负或者零x,f(x)=0。针对正x的响应与统一性梯度呈线性关系。
在图的被表示为b)的中部是噪声修正函数NReLU,其中,f(x)=max(0,x+N),N是高斯噪声。针对正x的修正函数的输出位于被表示为f(x)=x+3σ和f(x)=x-3σ的两条线之间。换言之,在NReLU中,随机选择的值被添加到输出。对于正输入,NReLU的输出将伪随机的位于两条线之间。对于一些稍微负的输入,NReLU可以在高斯噪声增加的添加使输出超过零的情况下返回正输出。因此,上面的线x+3σ与原点上方的y轴相交。
在图的被表示为c)的下部是随机修正函数SReLU。针对正x的修正函数的输出位于被表示为b1*x和b2*x的两条线之间。对于负x,输出是零。换言之,针对正输入的输出是通过将输入与随机选择的值相乘来获得的。根据图1,b1=1+a和b2=1–a。换句话说,正输出是从正输入产生的,使得正输出成为正输入的线性函数,线性函数的梯度具有可变性。如图所示,SReLU可以被配置为从负输入或者零输入返回零输出。
可以参照图来理解SReLU相较于NReLU的益处,因为NReLU中变化的范围是恒定的,因此也是针对小输入值。在SReLU中,然而,当输入从正方向接近零时,变化范围减小,这保持小幅度输入中的信号比NReLU好。此外,与NReLU相比较,SReLU在计算方面更有效,因为SReLU直接将每个激励单元与选自范围的乘数相乘。另一方面,NReLU计算来自每一层的输入方差,并且然后将选自高斯分布的偏差添加至每个激励单元。一般而言,SReLU可以被用于人工卷积神经网络。
图3图示了能够支持本发明的至少一些实施例的示例装置。图示了设备300,该设备300可以包括:例如,计算设备,诸如,服务器、节点或者云计算设备。设备300可以被配置为运行神经网络,诸如本文所描述的。处理器310被包括在设备300中,该处理器可以包括:例如,单核或者多核处理器,其中,单核处理器包括一个处理核并且多核处理器包括一个以上的处理核。处理器310可以包括一个以上的处理器。处理核可以包括:例如,由ARM公司制造的Cortex-A8处理核或者由先进微设备公司制造的Steamroller处理核。例如,处理器310可以包括至少一个高通骁龙和/或英特尔酷睿处理器。处理器310可以包括至少一个专用集成电路ASIC。处理器310可以包括至少一个现场可编程门阵列FPGA。处理器310可以是用于在设备300中执行方法步骤的部件。处理器310可以至少部分地被计算机指令配置为执行动作。
设备300可以包括存储器320。存储器320可以包括随机存取存储器和/或永久存储器。存储器320可以包括至少一个RAM芯片。例如,存储器320可以包括固态、磁性、光学和/或全息存储器。存储器320对处理器310可能至少部分是可访问的。存储器320可以至少部分地被包括在处理器310中。存储器320可以是用于存储信息的部件。存储器320可以包括计算机指令,处理器310被配置为执行该计算机指令。当被配置为使处理器310执行某些动作的计算机指令被存储在存储器320中,并且设备300总体上被配置为使用来自存储器320的计算机指令在处理器310的方向上运行时,可以认为处理器310和/或其至少一个处理核被配置为执行所述某些动作。存储器320可以至少部分地被包括在处理器310中。存储器320可以至少部分地在设备300外部但是对设备300是可访问的。存储器320中的计算机指令可以包括多个应用或者进程。例如,机器学习算法,诸如,具有分类器的AdaBoost算法,可以在一个应用或者进程中运行,摄像头功能可以在另一应用或者进程中运行,并且机器学习程序的输出可以被提供至进一步的应用或者进程,该进一步的应用或者进程可以包括汽车驾驶进程,例如,用于使制动动作响应于识别到摄像头视图中的行人而被触发。
设备300可以包括发射器330。设备300可以包括接收器340。发射器330和接收器340可以被配置为分别根据至少一个通信标准发射和接收信息。发射器330可以包括一个以上的发射器。接收器340可以包括一个以上的接收器。例如,发射器330和/或接收器340可以被配置为根据无线局域网WLAN、以太网、通用串行总线USB和/或全球微波接入互操作性WiMAX标准来运行。备选地或者附加地,可以利用专用通信架构。
设备300可以包括用户界面UI 360。UI 360可以包括显示器、键盘、触摸屏、被布置为通过使设备300振动以向用户发信号的振动器、扬声器和麦克风中的至少一个。用户可能能够经由360操作设备300,例如,以对机器学习参数进行配置和/或打开和/或关闭设备300。
处理器310可以配备有发射器,该发射器被布置为经由在设备300内部的电线将来自处理器310的信息输出至被包括在设备300中的其它设备。这种发射器可以包括串行总线发射器,该串行总线发射器被布置为例如经由至少一条电线将信息输出至存储器320以用于存储在存储器320中。除了串行总线外,发射器还可以包括并行总线发射器。同样,处理器310可以包括接收器,该接收器被布置为从被包括在设备300中的其它设备经由在设备300内部的电线接收处理器310中的信息。这种接收器可以包括串行总线接收器,该串行总线接收器被布置为例如从接收器340经由至少一条电线接收信息以在处理器310中进行处理。除了串行总线外,接收器还可以包括并行总线接收器。
设备300可以包括在图3中未被图示的进一步的设备。例如,在设备300包括智能电话的情况下,设备300可以包括至少一个数字摄像头。一些设备300可以包括后置摄像头和前置摄像头,其中,后置摄像头可以用于数字摄影并且前置摄像头可以用于视频电话。设备300可以包括指纹传感器,该指纹传感器被布置为至少部分地认证设备300的用户。在一些实施例中,设备300缺乏上面所描述的至少一个设备。
处理器310、存储器320、发射器330、接收器340和/或UI 360可以多种不同的方式通过设备300内部的电线相互连接。例如,上述设备中的每一个设备都可以被单独地连接至设备300内部的总线,以允许设备互换信息。然而,如技术人员将理解的,这仅仅是一个示例并且根据实施例可以选择使上述设备中的至少两个设备相互连接的各种方式,而不脱离本发明的范围。
图4图示了根据本发明的至少一些实施例的神经网络。例如,网络包括输入层410,该输入层410可以具有32×32的尺寸。层420、430和440可以具有32×32的尺寸和深度128。层420可以利用SReLU输出运行3×3卷积内核,层420同样可以利用SReLU输出运行3×3卷积内核,并且层440可以利用SReLU输出运行1×1卷积内核。层420、430和440中的每一层都输出128个特征信道。
层450和460可以各自具有尺寸32×32和深度192,并且利用SReLU输出运行3×3卷积内核。层470可以运行1×1卷积内核,将SReLU应用于输出并且实现丢弃,如上面所描述的。
处理经由最大池化程序从层470进行到层480。层480和490可以具有尺寸16×16和深度256,并且它们可以利用SReLU输出运行3×3卷积内核。层4100可以具有16×16的尺寸和256的深度,具有SReLU输出和丢弃。处理经由最大池化程序从层4100进行到层4110。层4110和4120可以具有尺寸8×8和深度512,并且它们可以利用SReLU输出运行3×3卷积内核。层4130和4140可以具有尺寸8×8和深度512和10,并且分别利用SReLU输出和ReLU输出运行1×1卷积内核。除了可以经由平均池化程序从运行十个特征信道的层4140进行到决策阶段。每个信道中的激励被平均分配以为每个类别生成一个得分。例如,决策阶段可以包括10类softmax(软最大)分类器。
为了根据图4中的示例利用SReLU生成神经网络,最初,所有卷积层可以利用ReLU输出来提供,此后,除了最后一个输出之外的所有输出都可以利用SReLU输出代替。例如,神经网络一般可以包括人工卷积神经网络。
图5是根据本发明的至少一些实施例的方法的流程图。所示的方法的阶段可以在设备中被执行,该设备被布置为例如通过这种设备的控制装置来运行神经网络。
阶段510包括存储至少部分地定义人工神经网络的数据。阶段510包括:利用至少一个随机修正线性单元通过将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
在使用中,在训练之后,随机修正线性单元在人工神经网络中可以利用修正线性单元代替,该修正线性单元根据f(x)=max(0,x)从输入x返回输出f。
要理解,所公开的本发明的实施例并不限于本文所公开的特定结构、处理步骤或者材料,而是延伸到其等同物,如相关领域的普通技术人员所认识到的。还应当理解,本文所采用的术语仅仅被用于描述特定实施例的目的但是并不是限制性的。
贯穿本说明书,对一个(one)实施例或者一个(an)实施例的引用是指结合该实施例而被描述的特定特征、结构或者特性被包括在本发明的至少一个实施例中。因此,短语“在一个(one)实施例中”或者“在一个(an)实施例中”出现在贯穿本说明的各处不一定全部指的是同一实施例。在使用诸如:例如、关于或者基本上等术语来引用数值的情况下,也公开了准确的数值。
如本文所使用的,为了方便起见,多个项、结构元件、组成元件和/或材料可以被呈现在共用的列表中。然而,这些列表应该被理解为就像列表中的每个成员被独立标识为单独且唯一的成员一样。因此,在没有相反指示的情况下,这类列表中的个体成员都不应当仅仅基于其出现在共同群组中而被看作该同一列表中的任何其它成员的实际等同物。另外,本发明的各种实施例和示例在本文中可以随着其各种组件的备选物一起被提及。应当理解,这样的实施例、示例和备选物不应被解释为彼此在事实上的等同物,而应被认为是对本发明的单独且自主的表示。
此外,所描述的特征、结构、或者特性可以任何合适的方式结合在一个或者多个实施例中。在前面的描述中,提供许多具体细节,诸如,长度、宽度、形状等的示例,以提供对本发明的实施例的充分理解。然而,相关领域的技术人员将意识到,可以实践本发明而没有特定细节中的一个或者多个,或者可以利用其它方法、组件、材料等。在其它实例中,不详细示出或描述公知结构、材料或者操作以避免模糊本发明的各方面。
虽然前述的示例在一个或者多个特定应用中说明了本发明的原理,但是对本领域的普通技术人员而言显然在不脱离本发明的原理和构思的情况下,可以对实施方式的形式、用法和细节做出许多修改,而无需创造性劳动。相应地,除了由下面阐述的权利要求限制外,不意在对本发明进行限制。
动词“包括(to comprise)”和“包括(to include)”在本文档中被用作开放性限制,它并不排除也不要求未被列举的特征的存在。从属权利要求中所列举的特征可以相互自由地组合,除非另有明确说明。此外,应当理解,“一(a)”或“一(an)”(即,单数形式)的使用在本文档全文中不排斥多个。
行业适用性
本发明的至少一些实施例有在最优化机器识别方面的行业应用,以例如减少无人驾驶交通工具中的交通事故。
首字母缩写词
CNN 卷积神经网络
NReLU 噪声ReLU
ReLU 修正线性单元
SReLU 随机ReLU
参考符号列表
110 | 视图 |
101 | 道路 |
125 | 感兴趣的区域 |
120 | 行人 |
130 | 第一层 |
140 | 修正函数 |
150 | 第二层 |
300–360 | 图3的设备的结构 |
410-4140 | 图4中所图示的神经网络的层 |
510–520 | 图5的方法的阶段 |
Claims (18)
1.一种用于提供人工神经网络的装置,包括:
存储器,被配置为存储至少部分地定义所述人工神经网络的数据,以及
至少一个处理核,被配置为通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络,所述至少一个随机修正线性单元被配置为输出如下中的最大值:
A)零;以及
B)所述随机修正线性单元的输入乘以一个乘数,其中所述乘数是从如下范围的值之间选出的随机选择的值:
1减去一个参数,以及,1加上一个参数。
2.根据权利要求1所述的装置,其中所述随机选择包括随机的或者伪随机的随机选择。
3.根据权利要求1所述的装置,其中所述数据集包括多个测试图像并且所述至少一个处理核被配置为改变针对每个测试图像的所述随机选择的值。
4.根据权利要求1所述的装置,其中所述至少一个处理核被配置为在所述人工神经网络中的第一对卷积层之间应用第一随机修正线性单元、以及在所述人工神经网络中的第二对卷积层之间应用第二随机修正线性单元。
5.根据权利要求1所述的装置,其中所述至少一个处理核被配置为实现所述人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零。
6.根据权利要求1所述的装置,其中所述参数的值是0.8。
7.根据权利要求1所述的装置,其中所述参数的值是0.3。
8.根据权利要求1至7中任一项所述的装置,其中所述人工神经网络是模式识别神经网络。
9.一种提供人工神经网络的方法,包括:
存储至少部分地定义所述人工神经网络的数据,以及
通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络,所述至少一个随机修正线性单元被配置为输出如下中的最大值:
A)零;以及
B)所述随机修正线性单元的输入乘以一个乘数,其中所述乘数是从如下范围的值之间选出的随机选择的值:
1减去一个参数,以及,1加上一个参数。
10.根据权利要求9所述的方法,其中所述随机选择包括随机的或者伪随机的随机选择。
11.根据权利要求9所述的方法,其中所述数据集包括多个测试图像并且至少一个处理核被配置为改变针对每个测试图像的所述随机选择的值。
12.根据权利要求9所述的方法,进一步包括:在所述人工神经网络中的第一对卷积层之间应用第一随机修正线性单元,以及在所述人工神经网络中的第二对卷积层之间应用第二随机修正线性单元。
13.根据权利要求9所述的方法,进一步包括:实现所述人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零。
14.根据权利要求9所述的方法,其中所述参数的值是0.8。
15.根据权利要求9所述的方法,其中所述参数的值是0.3。
16.根据权利要求9至15中任一项所述的方法,其中所述人工神经网络是模式识别神经网络。
17.一种用于提供人工神经网络的装置,包括:
用于存储至少部分地定义所述人工神经网络的数据的部件;
用于通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络的部件,所述至少一个随机修正线性单元被配置为输出如下中的最大值:
A)零;以及
B)所述随机修正线性单元的输入乘以一个乘数,其中所述乘数是从如下范围的值之间选出的随机选择的值:
1减去一个参数,以及,1加上一个参数。
18.一种非瞬态计算机可读介质,其上存储有计算机可读指令集合,所述计算机可读指令集合在由至少一个处理器执行时使装置执行权利要求9至16中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/093904 WO2018027453A1 (en) | 2016-08-08 | 2016-08-08 | Artificial neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109564633A CN109564633A (zh) | 2019-04-02 |
CN109564633B true CN109564633B (zh) | 2023-07-18 |
Family
ID=61161079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680088205.7A Active CN109564633B (zh) | 2016-08-08 | 2016-08-08 | 人工神经网络 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10956788B2 (zh) |
EP (1) | EP3497622A4 (zh) |
CN (1) | CN109564633B (zh) |
WO (1) | WO2018027453A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960219B (zh) * | 2017-03-10 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 图片识别方法及装置、计算机设备及计算机可读介质 |
CN110570013B (zh) * | 2019-08-06 | 2023-04-07 | 山东省科学院海洋仪器仪表研究所 | 一种单站位在线波周期数据的预测诊断方法 |
US11390286B2 (en) * | 2020-03-04 | 2022-07-19 | GM Global Technology Operations LLC | System and process for end to end prediction of lane detection uncertainty |
CN116992249B (zh) * | 2023-09-28 | 2024-01-23 | 南京信息工程大学 | 基于fmcnn-lstm的格点预报偏差订正方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9704068B2 (en) | 2012-06-22 | 2017-07-11 | Google Inc. | System and method for labelling aerial images |
US9978013B2 (en) * | 2014-07-16 | 2018-05-22 | Deep Learning Analytics, LLC | Systems and methods for recognizing objects in radar imagery |
US9928213B2 (en) | 2014-09-04 | 2018-03-27 | Qualcomm Incorporated | Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals |
US9646634B2 (en) | 2014-09-30 | 2017-05-09 | Google Inc. | Low-rank hidden input layer for speech recognition neural network |
US9892344B1 (en) * | 2015-11-30 | 2018-02-13 | A9.Com, Inc. | Activation layers for deep learning networks |
CN105678333B (zh) | 2016-01-06 | 2020-07-28 | 浙江宇视科技有限公司 | 一种拥挤区域的确定方法和装置 |
-
2016
- 2016-08-08 WO PCT/CN2016/093904 patent/WO2018027453A1/en unknown
- 2016-08-08 US US16/321,285 patent/US10956788B2/en active Active
- 2016-08-08 CN CN201680088205.7A patent/CN109564633B/zh active Active
- 2016-08-08 EP EP16911909.6A patent/EP3497622A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3497622A1 (en) | 2019-06-19 |
US10956788B2 (en) | 2021-03-23 |
CN109564633A (zh) | 2019-04-02 |
EP3497622A4 (en) | 2020-03-25 |
US20190180148A1 (en) | 2019-06-13 |
WO2018027453A1 (en) | 2018-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107851195B (zh) | 利用神经网络进行目标检测 | |
WO2018120013A1 (en) | Artificial neural network | |
CN110378235B (zh) | 一种模糊人脸图像识别方法、装置及终端设备 | |
CN107766786B (zh) | 活性测试方法和活性测试计算设备 | |
CN109564633B (zh) | 人工神经网络 | |
WO2019152983A2 (en) | System and apparatus for face anti-spoofing via auxiliary supervision | |
WO2016095117A1 (en) | Object detection with neural network | |
WO2019033525A1 (zh) | Au特征识别方法、装置及存储介质 | |
JP6112801B2 (ja) | 画像認識装置及び画像認識方法 | |
Ahamed et al. | HOG-CNN based real time face recognition | |
CN104915972A (zh) | 图像处理装置、图像处理方法以及程序 | |
CN110956082B (zh) | 基于深度学习的人脸关键点检测方法和检测系统 | |
CN112418360B (zh) | 卷积神经网络的训练方法、行人属性识别方法及相关设备 | |
Stuchi et al. | Improving image classification with frequency domain layers for feature extraction | |
CN111222380A (zh) | 一种活体检测方法、装置、及其识别模型训练方法 | |
CN112507897A (zh) | 跨模态人脸识别方法、装置、设备及存储介质 | |
CN110121723B (zh) | 人工神经网络 | |
CN112766176A (zh) | 轻量化卷积神经网络的训练方法及人脸属性识别方法 | |
Hebda et al. | A compact deep convolutional neural network architecture for video based age and gender estimation | |
CN112101185B (zh) | 一种训练皱纹检测模型的方法、电子设备及存储介质 | |
Chanklan et al. | Fingerprint recognition with edge detection and dimensionality reduction techniques | |
US11494590B2 (en) | Adaptive boosting machine learning | |
CN114926886B (zh) | 一种微表情动作单元识别方法及系统 | |
Mahima et al. | Highway Collision Avoidance by Detection of Animal’s Images | |
CN110892423A (zh) | 人工神经网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |