CN109564633A - 人工神经网络 - Google Patents

人工神经网络 Download PDF

Info

Publication number
CN109564633A
CN109564633A CN201680088205.7A CN201680088205A CN109564633A CN 109564633 A CN109564633 A CN 109564633A CN 201680088205 A CN201680088205 A CN 201680088205A CN 109564633 A CN109564633 A CN 109564633A
Authority
CN
China
Prior art keywords
neural network
artificial neural
random
linear unit
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680088205.7A
Other languages
English (en)
Other versions
CN109564633B (zh
Inventor
姜晓恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN109564633A publication Critical patent/CN109564633A/zh
Application granted granted Critical
Publication of CN109564633B publication Critical patent/CN109564633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

根据本发明的示例方面,提供了一种装置,该装置包括:存储器,其被配置为存储至少部分地定义人工神经网络的数据;以及至少一个处理核,其被配置为利用至少一个随机修正线性单元通过将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。

Description

人工神经网络
技术领域
本发明涉及人工神经网络,诸如,例如,卷积人工神经网络。
背景技术
机器学习和机器识别有多种应用,诸如,例如,机场的自动护照控制,其中,可以将人脸的数字图像与被存储在护照中的以人脸为特征的生物统计信息作比较。
例如,机器识别的另一示例在手写或者打印文档文本识别中用于呈现可搜索书籍的内容。又一示例是行人识别,其中,最终,无人驾驶汽车由此被视为使得能够意识到前方有行人并且汽车可以避免从行人身上碾过。
除了视觉识别之外,口头语言可以是机器识别的主题。当识别到口头语言时,口头语言随后可能被输入至解析器以向数字个人助理提供命令,或者口头语言可以被提供至机器翻译程序,从而获得意思与口头语言相对应的另一语言的文本。
机器识别技术采用以此为目的而被设计的算法。例如,人工神经网络可以被用来实现机器视觉应用。人工神经网络在本文中可以被简称为神经网络。机器识别算法可以包括处理功能,在图像识别中,这种处理功能可以包括:例如,滤波(诸如,形态滤波)、阈值处理、边缘检测、模式识别和对象尺寸测量。
神经网络可以包括:例如,完全连接层和卷积层。完全连接层可以包括所有神经元都具有到相邻层上的所有神经元的连接的层,诸如,例如,前一层。例如,卷积层可以包括这样的层,在该层中,神经元接收来自前一层的一部分的输入,这个部分被称为相应字段。
发明内容
本发明由独立权利要求的特征定义。一些特定实施例在独立权利要求中被定义。
根据本发明的第一方面,提供了一种装置,包括:存储器,其被配置为存储至少部分地定义人工神经网络的数据;以及至少一个处理核,其被配置为通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,该至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
第一方面的各种实施例可以包括来自以下项目列表的至少一个特征:
·随机选择包括随机的或者伪随机的随机选择;
·数据集包括多个测试图像并且至少一个处理核被配置为改变针对每个测试图像的随机选择的值;
·至少一个处理核被配置为在人工神经网络中的第一对卷积层之间应用第一随机修正线性单元和在人工神经网络中的第二对卷积层之间应用第二随机修正线性单元;
·至少一个随机修正线性单元被配置为从负输入产生零输出;
·至少一个处理核被配置为实现人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零;
·随机选择包括值随机地或者伪随机地选自范围(1-a,1+a);
·值a是0.8;
·值a是0.3;
·人工神经网络是模式识别神经网络。
根据本发明的第二方面,提供了一种方法,包括:存储至少部分地定义人工神经网络的数据;以及通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
第二方面的各种实施例可以包括来自以下项目列表的至少一个特征:
·随机选择包括随机的或者伪随机的随机选择;
·数据集包括多个测试图像并且至少一个处理核被配置为改变针对每个测试图像的随机选择的值;
·方法进一步包括:在人工神经网络中的第一对卷积层之间应用第一随机修正线性单元,以及在人工神经网络中的第二对卷积层之间应用第二随机修正线性单元;
·至少一个随机修正线性单元被配置为从负输入产生零输出;
·方法进一步包括:实现人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零;
·随机选择包括值随机地或者伪随机地选自范围(1-a,1+a);
·值a是0.8;
·值a是0.3;
·人工神经网络是模式识别神经网络。
根据本发明的第三方面,提供了一种装置,包括:用于存储至少部分地定义人工神经网络的数据的部件;用于通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络的部件,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
根据本发明的第四方面,提供了一种非瞬态计算机可读介质,其存储有计算机可读指令的集合,该计算机可读指令的集合在由至少一个处理器执行时使装置至少存储至少部分地定义人工神经网络的数据,并且通过利用至少一个随机修正线性单元将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
根据本发明的第五方面,提供了一种计算机程序,其被配置为使根据第二方面的方法被执行。
附图说明
图1图示了能够支持本发明的至少一些实施例的示例系统;
图2图示了修正函数;
图3图示了能够支持本发明的至少一些实施例的示例装置;
图4图示了根据本发明的至少一些实施例的神经网络,以及
图5是根据本发明的至少一些实施例的方法的流程图。
具体实施方式
使用具有随机性的激励函数,能够减轻将神经网络过度训练为特定训练数据组的效果。详细地,已经发现改变定义输出的线性函数的梯度的随机修正线性单元胜过传统修正线性单元。还发现随机修正线性单元胜过噪声修正线性单元,该噪声修正线性单元使用附加的高斯噪声使输出随机化。
图1图示了能够支持本发明的至少一些实施例的示例系统。图1具有行人120正在行走的道路101的视图110。虽然在本文中根据检测行人结合图1对本发明进行了描述,但是本发明并不限于此,但是本领域的技术人员将理解,本发明更广泛地适用于在视觉、听觉或者其它种类的数据方面的机器识别。例如,根据所讨论的实施例,骑自行车者识别、手写识别、面部识别、交通标志识别、语音识别、语言识别、手语识别和/或垃圾邮件识别可能从本发明受益。
在图1中,道路101被摄像头成像。摄像头可以被配置为捕获至少部分地覆盖道路的视图110。摄像头可以被配置为对从被包括在摄像头中的图像捕获设备(诸如,电荷耦合器件(CCD))获得的图像数据进行预处理。预处理的示例包括用于增加存在于所捕获到的图像中的动态范围的黑色和白色的减少、对比度调整和/或亮度平衡。在一些实施例中,例如,图像数据还被缩放到位深度,该位深度适合于注入图像识别算法,诸如,AdaBoost。例如,预处理可以包括用于注入图像识别算法的对感兴趣的区域(诸如,区域125)的选择。根据实施例,预处理在本质上可能不存在或者受到限制。例如,摄像头可以被安装在汽车中,该汽车被配置为无人驾驶或者采集训练数据。备选地,摄像头可以被安装在汽车中,该汽车被设计为由人类驾驶员驾驶,但是如果汽车看似要撞到行人或者动物,则提供警告和/或自动制动。
从摄像头注入的图像可以被用来生成用于训练神经网络的测试数据集。这种数据集可以包括训练样本。例如,训练样本可以包括静态图像,诸如,视频图像帧或者视频短片。在要被识别到的输入数据不是视觉数据的情况下,输入数据可以包括:例如,从模数转换器获得的数字样本的向量。模数转换器可以获得例如从麦克风注入的模拟反馈,并且从模拟反馈生成样本。总之,如上所述,非视觉形式的数据还可以是机器识别的主题。例如,加速计或者旋转传感器数据可以被用来检测人是否正在行走、跑或者跌倒。由于神经网络可以被训练为视图110中的对象,训练阶段可以发生在神经网络的使用阶段或者测试阶段之前。
对利用测速数据集来训练神经网络的挑战是将神经网络过度拟合至测试数据集。由于神经网络可以包括大量参数,甚至数百万的参数,网络可以在测试数据集的识别特性方面变得专业,而不是在执行通用设置中的识别任务方面变得专业。为了控制过度拟合问题,可以在神经网络的层之间引入随机化的元素。
在神经网络的层之间引入随机化的元素的一种方式是所谓的丢弃,其中,在训练期间,激励的一半被任意地或者随机地选择并且被设置为零。例如,选择可以针对每个训练样本被重新完成。例如,丢弃可以被应用于完全连接层,其中,丢弃在完全连接层中产生了比在卷积层中更多的益处。丢弃可以被视为提供了以有效的方式近似地、指数地组合许多不同的神经网络架构的方式。丢弃通常被应用于完全连接层,其中,丢弃可以提供益处。丢弃在卷积层中似乎并没有类似的益处。
在神经网络的层之间引入随机化的元素的另一方式是随机池化,其中,确定性池化操作(诸如,平均和最大池化)被用于使卷积神经网络规范化的随机程序代替。该程序根据通过池化区内的活动而被给出的多项分布任意地挑选每个池化区内的激励。在深卷积神经网络中,池化不一定跟着每一层。因此,可以应用随机池化几次。随机池化需要同时在训练时和测试时计算针对每个区域的概率,从而导致在运行神经网络的设备中的计算负载增加。
神经网络在图1中被示意地图示为第一层130、修正函数140和第二层150。实际网络可以包括两个以上的层。修正函数140可以被功能地包括在第一层130或者第二层150中。修正函数150可以执行激励函数,并且/或者修正函数可以包括修正线性单元ReLU。第一层和第二层可以包括卷积层。备选地,第一层130和第二层150中的至少一个和可选地两个可以包括完全连接层。
修正函数140可以被配置为处理第一层130的输出,以用于输入到第二层150中。例如,修正函数140可以被配置为从具有负值的输入产生零输出,从而有效地防止负值从第一层130被注入至第二层150。传统修正函数根据函数f产生输出,使得f(x)=max(0,x)。例如,值x可以被包括在实数中,在数字系统中通过浮点值或者整数表示来表示。
所谓的噪声修正函数NReLU根据f产生输出,使得f(x)=max(0,x+N(σ(x))),其中,N是具有方差σ(x)的高斯噪声,高斯噪声被用来使修正函数的输出随机化。例如,方差可以是使用一个层的所有单元来获得的。
根据本发明,随机修正函数SReLU通过获得输出作为f(x)=max(0,bx)来操作,使得乘数随机地或者伪随机地选自范围(1-a,1+a)。例如,参数a可以采用值0.1、0.3、0.5、0.8或者0.9。例如,乘数b可以针对每个训练样本被随机地或者伪随机地重新获得。备选地,乘数b可以在神经网络的训练期间多次被随机地或者伪随机地重新获得,但是针对每个训练样本不会被单独地重新获得。例如,乘数b可以每隔10个训练样本或者每隔100个训练样本被如此重新获得。换言之,为了获得输出,随机修正函数将输入与随机选择的乘数相乘。换句话说,正输出是从正输入产生的,使得正输出成为正输入的线性函数,线性函数的梯度具有可变性。例如,可变性可以是随机的或者伪随机的。在SReLU的至少一些实施例中,没有噪声被单独地生成并且被另外添加以获得输出。对于负输入,随机修正函数可以被布置为返回零输出。
随机修正函数SReLU可以在训练时被使用,而在测试时(也被简称为在使用期间),可以使用传统修正函数,其中,在传统修正函数中,由输入x产生的输出f(x)是f(x)=max(0,x)。
如上所述,随机修正函数产生比传统修正函数和噪声修正函数两者改进的识别结果。在发明者所进行的研究中,获得了下面的结果,丢弃被可选地被用在完全连接层中:
将随机化引入至神经网络中提高了性能,因为两个相似的训练样本将会产生相似的但不相同的具有随机化的响应。因此,测试数据集有效地变得更大,从而导致性能提高。也避免了过度拟合,因为神经网络不能够精确地适应训练样本,训练样本产生随机化的、且不再相同的、或者完全确定性的输出。
图2图示了修正函数。在图的被表示为a)的上部中,图示了传统修正函数ReLU,其中,对于正x,f(x)=x,并且对于负或者零x,f(x)=0。针对正x的响应与统一性梯度呈线性关系。
在图的被表示为b)的中部是噪声修正函数NReLU,其中,f(x)=max(0,x+N),N是高斯噪声。针对正x的修正函数的输出位于被表示为f(x)=x+3σ和f(x)=x-3σ的两条线之间。换言之,在NReLU中,随机选择的值被添加到输出。对于正输入,NReLU的输出将伪随机的位于两条线之间。对于一些稍微负的输入,NReLU可以在高斯噪声增加的添加使输出超过零的情况下返回正输出。因此,上面的线x+3σ与原点上方的y轴相交。
在图的被表示为c)的下部是随机修正函数SReLU。针对正x的修正函数的输出位于被表示为b1*x和b2*x的两条线之间。对于负x,输出是零。换言之,针对正输入的输出是通过将输入与随机选择的值相乘来获得的。根据图1,b1=1+a和b2=1–a。换句话说,正输出是从正输入产生的,使得正输出成为正输入的线性函数,线性函数的梯度具有可变性。如图所示,SReLU可以被配置为从负输入或者零输入返回零输出。
可以参照图来理解SReLU相较于NReLU的益处,因为NReLU中变化的范围是恒定的,因此也是针对小输入值。在SReLU中,然而,当输入从正方向接近零时,变化范围减小,这保持小幅度输入中的信号比NReLU好。此外,与NReLU相比较,SReLU在计算方面更有效,因为SReLU直接将每个激励单元与选自范围的乘数相乘。另一方面,NReLU计算来自每一层的输入方差,并且然后将选自高斯分布的偏差添加至每个激励单元。一般而言,SReLU可以被用于人工卷积神经网络。
图3图示了能够支持本发明的至少一些实施例的示例装置。图示了设备300,该设备300可以包括:例如,计算设备,诸如,服务器、节点或者云计算设备。设备300可以被配置为运行神经网络,诸如本文所描述的。处理器310被包括在设备300中,该处理器可以包括:例如,单核或者多核处理器,其中,单核处理器包括一个处理核并且多核处理器包括一个以上的处理核。处理器310可以包括一个以上的处理器。处理核可以包括:例如,由ARM公司制造的Cortex-A8处理核或者由先进微设备公司制造的Steamroller处理核。例如,处理器310可以包括至少一个高通骁龙和/或英特尔酷睿处理器。处理器310可以包括至少一个专用集成电路ASIC。处理器310可以包括至少一个现场可编程门阵列FPGA。处理器310可以是用于在设备300中执行方法步骤的部件。处理器310可以至少部分地被计算机指令配置为执行动作。
设备300可以包括存储器320。存储器320可以包括随机存取存储器和/或永久存储器。存储器320可以包括至少一个RAM芯片。例如,存储器320可以包括固态、磁性、光学和/或全息存储器。存储器320对处理器310可能至少部分是可访问的。存储器320可以至少部分地被包括在处理器310中。存储器320可以是用于存储信息的部件。存储器320可以包括计算机指令,处理器310被配置为执行该计算机指令。当被配置为使处理器310执行某些动作的计算机指令被存储在存储器320中,并且设备300总体上被配置为使用来自存储器320的计算机指令在处理器310的方向上运行时,可以认为处理器310和/或其至少一个处理核被配置为执行所述某些动作。存储器320可以至少部分地被包括在处理器310中。存储器320可以至少部分地在设备300外部但是对设备300是可访问的。存储器320中的计算机指令可以包括多个应用或者进程。例如,机器学习算法,诸如,具有分类器的AdaBoost算法,可以在一个应用或者进程中运行,摄像头功能可以在另一应用或者进程中运行,并且机器学习程序的输出可以被提供至进一步的应用或者进程,该进一步的应用或者进程可以包括汽车驾驶进程,例如,用于使制动动作响应于识别到摄像头视图中的行人而被触发。
设备300可以包括发射器330。设备300可以包括接收器340。发射器330和接收器340可以被配置为分别根据至少一个通信标准发射和接收信息。发射器330可以包括一个以上的发射器。接收器340可以包括一个以上的接收器。例如,发射器330和/或接收器340可以被配置为根据无线局域网WLAN、以太网、通用串行总线USB和/或全球微波接入互操作性WiMAX标准来运行。备选地或者附加地,可以利用专用通信架构。
设备300可以包括用户界面UI 360。UI 360可以包括显示器、键盘、触摸屏、被布置为通过使设备300振动以向用户发信号的振动器、扬声器和麦克风中的至少一个。用户可能能够经由360操作设备300,例如,以对机器学习参数进行配置和/或打开和/或关闭设备300。
处理器310可以配备有发射器,该发射器被布置为经由在设备300内部的电线将来自处理器310的信息输出至被包括在设备300中的其它设备。这种发射器可以包括串行总线发射器,该串行总线发射器被布置为例如经由至少一条电线将信息输出至存储器320以用于存储在存储器320中。除了串行总线外,发射器还可以包括并行总线发射器。同样,处理器310可以包括接收器,该接收器被布置为从被包括在设备300中的其它设备经由在设备300内部的电线接收处理器310中的信息。这种接收器可以包括串行总线接收器,该串行总线接收器被布置为例如从接收器340经由至少一条电线接收信息以在处理器310中进行处理。除了串行总线外,接收器还可以包括并行总线接收器。
设备300可以包括在图3中未被图示的进一步的设备。例如,在设备300包括智能电话的情况下,设备300可以包括至少一个数字摄像头。一些设备300可以包括后置摄像头和前置摄像头,其中,后置摄像头可以用于数字摄影并且前置摄像头可以用于视频电话。设备300可以包括指纹传感器,该指纹传感器被布置为至少部分地认证设备300的用户。在一些实施例中,设备300缺乏上面所描述的至少一个设备。
处理器310、存储器320、发射器330、接收器340和/或UI 360可以多种不同的方式通过设备300内部的电线相互连接。例如,上述设备中的每一个设备都可以被单独地连接至设备300内部的总线,以允许设备互换信息。然而,如技术人员将理解的,这仅仅是一个示例并且根据实施例可以选择使上述设备中的至少两个设备相互连接的各种方式,而不脱离本发明的范围。
图4图示了根据本发明的至少一些实施例的神经网络。例如,网络包括输入层410,该输入层410可以具有32×32的尺寸。层420、430和440可以具有32×32的尺寸和深度128。层420可以利用SReLU输出运行3×3卷积内核,层420同样可以利用SReLU输出运行3×3卷积内核,并且层440可以利用SReLU输出运行1×1卷积内核。层420、430和440中的每一层都输出128个特征信道。
层450和460可以各自具有尺寸32×32和深度192,并且利用SReLU输出运行3×3卷积内核。层470可以运行1×1卷积内核,将SReLU应用于输出并且实现丢弃,如上面所描述的。
处理经由最大池化程序从层470进行到层480。层480和490可以具有尺寸16×16和深度256,并且它们可以利用SReLU输出运行3×3卷积内核。层4100可以具有16×16的尺寸和256的深度,具有SReLU输出和丢弃。处理经由最大池化程序从层4100进行到层4110。层4110和4120可以具有尺寸8×8和深度512,并且它们可以利用SReLU输出运行3×3卷积内核。层4130和4140可以具有尺寸8×8和深度512和10,并且分别利用SReLU输出和ReLU输出运行1×1卷积内核。除了可以经由平均池化程序从运行十个特征信道的层4140进行到决策阶段。每个信道中的激励被平均分配以为每个类别生成一个得分。例如,决策阶段可以包括10类softmax(软最大)分类器。
为了根据图4中的示例利用SReLU生成神经网络,最初,所有卷积层可以利用ReLU输出来提供,此后,除了最后一个输出之外的所有输出都可以利用SReLU输出代替。例如,神经网络一般可以包括人工卷积神经网络。
图5是根据本发明的至少一些实施例的方法的流程图。所示的方法的阶段可以在设备中被执行,该设备被布置为例如通过这种设备的控制装置来运行神经网络。
阶段510包括存储至少部分地定义人工神经网络的数据。阶段510包括:利用至少一个随机修正线性单元通过将测试数据集应用于人工神经网络来训练人工神经网络,至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从正输入产生正输出。
在使用中,在训练之后,随机修正线性单元在人工神经网络中可以利用修正线性单元代替,该修正线性单元根据f(x)=max(0,x)从输入x返回输出f。
要理解,所公开的本发明的实施例并不限于本文所公开的特定结构、处理步骤或者材料,而是延伸到其等同物,如相关领域的普通技术人员所认识到的。还应当理解,本文所采用的术语仅仅被用于描述特定实施例的目的但是并不是限制性的。
贯穿本说明书,对一个(one)实施例或者一个(an)实施例的引用是指结合该实施例而被描述的特定特征、结构或者特性被包括在本发明的至少一个实施例中。因此,短语“在一个(one)实施例中”或者“在一个(an)实施例中”出现在贯穿本说明的各处不一定全部指的是同一实施例。在使用诸如:例如、关于或者基本上等术语来引用数值的情况下,也公开了准确的数值。
如本文所使用的,为了方便起见,多个项、结构元件、组成元件和/或材料可以被呈现在共用的列表中。然而,这些列表应该被理解为就像列表中的每个成员被独立标识为单独且唯一的成员一样。因此,在没有相反指示的情况下,这类列表中的个体成员都不应当仅仅基于其出现在共同群组中而被看作该同一列表中的任何其它成员的实际等同物。另外,本发明的各种实施例和示例在本文中可以随着其各种组件的备选物一起被提及。应当理解,这样的实施例、示例和备选物不应被解释为彼此在事实上的等同物,而应被认为是对本发明的单独且自主的表示。
此外,所描述的特征、结构、或者特性可以任何合适的方式结合在一个或者多个实施例中。在前面的描述中,提供许多具体细节,诸如,长度、宽度、形状等的示例,以提供对本发明的实施例的充分理解。然而,相关领域的技术人员将意识到,可以实践本发明而没有特定细节中的一个或者多个,或者可以利用其它方法、组件、材料等。在其它实例中,不详细示出或描述公知结构、材料或者操作以避免模糊本发明的各方面。
虽然前述的示例在一个或者多个特定应用中说明了本发明的原理,但是对本领域的普通技术人员而言显然在不脱离本发明的原理和构思的情况下,可以对实施方式的形式、用法和细节做出许多修改,而无需创造性劳动。相应地,除了由下面阐述的权利要求限制外,不意在对本发明进行限制。
动词“包括(to comprise)”和“包括(to include)”在本文档中被用作开放性限制,它并不排除也不要求未被列举的特征的存在。从属权利要求中所列举的特征可以相互自由地组合,除非另有明确说明。此外,应当理解,“一(a)”或“一(an)”(即,单数形式)的使用在本文档全文中不排斥多个。
行业适用性
本发明的至少一些实施例有在最优化机器识别方面的行业应用,以例如减少无人驾驶交通工具中的交通事故。
首字母缩写词
CNN 卷积神经网络
NReLU 噪声ReLU
ReLU 修正线性单元
SReLU 随机ReLU
参考符号列表
110 视图
101 道路
125 感兴趣的区域
120 行人
130 第一层
140 修正函数
150 第二层
300–360 图3的设备的结构
410-4140 图4中所图示的神经网络的层
510–520 图5的方法的阶段

Claims (23)

1.一种装置,包括:
存储器,被配置为存储至少部分地定义人工神经网络的数据,以及
至少一个处理核,被配置为通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络,所述至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从所述正输入产生正输出。
2.根据权利要求1所述的装置,其中所述随机选择包括随机的或者伪随机的随机选择。
3.根据权利要求1或者2所述的装置,其中所述数据集包括多个测试图像并且所述至少一个处理核被配置为改变针对每个测试图像的所述随机选择的值。
4.根据权利要求1至3中任一项所述的装置,其中所述至少一个处理核被配置为在所述人工神经网络中的第一对卷积层之间应用第一随机修正线性单元、以及在所述人工神经网络中的第二对卷积层之间应用第二随机修正线性单元。
5.根据权利要求1至4中任一项所述的装置,其中所述至少一个随机修正线性单元被配置为从负输入产生零输出。
6.根据权利要求1至5中任一项所述的装置,其中所述至少一个处理核被配置为实现所述人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零。
7.根据权利要求1至6中任一项所述的装置,其中所述随机选择包括所述值随机地或者伪随机地选自范围(1-a,1+a)。
8.根据权利要求7所述的装置,其中在所述值中,a是0.8。
9.根据权利要求7所述的装置,其中在所述值中,a是0.3。
10.根据权利要求1至9中任一项所述的装置,其中所述人工神经网络是模式识别神经网络。
11.一种方法,包括:
存储至少部分地定义人工神经网络的数据,以及
通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络,所述至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从所述正输入产生正输出。
12.根据权利要求11所述的方法,其中所述随机选择包括随机的或者伪随机的随机选择。
13.根据权利要求11或者12所述的方法,其中所述数据集包括多个测试图像并且所述至少一个处理核被配置为改变针对每个测试图像的所述随机选择的值。
14.根据权利要求11至13中任一项所述的方法,进一步包括:在所述人工神经网络中的第一对卷积层之间应用第一随机修正线性单元,以及在所述人工神经网络中的第二对卷积层之间应用第二随机修正线性单元。
15.根据权利要求11至14中任一项所述的方法,其中所述至少一个随机修正线性单元被配置为从负输入产生零输出。
16.根据权利要求11至15中任一项所述的方法,进一步包括:实现所述人工神经网络中的随机丢弃函数,对于每个训练样本,丢弃特征将层内的激励的一半随机地设置为零。
17.根据权利要求11至16中任一项所述的方法,其中所述随机选择包括所述值随机地或者伪随机地选自范围(1-a,1+a)。
18.根据权利要求17所述的方法,其中在所述值中,a是0.8。
19.根据权利要求17所述的方法,其中在所述值中,a是0.3。
20.根据权利要求11至19中任一项所述的方法,其中所述人工神经网络是模式识别神经网络。
21.一种装置,包括:
用于存储至少部分地定义人工神经网络的数据的部件;
用于通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络的部件,所述至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从所述正输入产生正输出。
22.一种非瞬态计算机可读介质,其上存储有计算机可读指令集合,所述计算机可读指令集合在由至少一个处理器执行时使装置至少:
存储至少部分地定义人工神经网络的数据;
通过利用至少一个随机修正线性单元将测试数据集应用于所述人工神经网络来训练所述人工神经网络,所述至少一个随机修正线性单元被配置为通过将正输入与随机选择的值相乘来从所述正输入产生正输出。
23.一种计算机程序,被配置为使根据权利要求11至20中的至少一项所述的方法被执行。
CN201680088205.7A 2016-08-08 2016-08-08 人工神经网络 Active CN109564633B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/093904 WO2018027453A1 (en) 2016-08-08 2016-08-08 Artificial neural network

Publications (2)

Publication Number Publication Date
CN109564633A true CN109564633A (zh) 2019-04-02
CN109564633B CN109564633B (zh) 2023-07-18

Family

ID=61161079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680088205.7A Active CN109564633B (zh) 2016-08-08 2016-08-08 人工神经网络

Country Status (4)

Country Link
US (1) US10956788B2 (zh)
EP (1) EP3497622A4 (zh)
CN (1) CN109564633B (zh)
WO (1) WO2018027453A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960219B (zh) * 2017-03-10 2021-04-16 百度在线网络技术(北京)有限公司 图片识别方法及装置、计算机设备及计算机可读介质
CN110570013B (zh) * 2019-08-06 2023-04-07 山东省科学院海洋仪器仪表研究所 一种单站位在线波周期数据的预测诊断方法
US11390286B2 (en) * 2020-03-04 2022-07-19 GM Global Technology Operations LLC System and process for end to end prediction of lane detection uncertainty
CN116992249B (zh) * 2023-09-28 2024-01-23 南京信息工程大学 基于fmcnn-lstm的格点预报偏差订正方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019458A1 (en) * 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704068B2 (en) * 2012-06-22 2017-07-11 Google Inc. System and method for labelling aerial images
US9928213B2 (en) 2014-09-04 2018-03-27 Qualcomm Incorporated Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals
US9646634B2 (en) 2014-09-30 2017-05-09 Google Inc. Low-rank hidden input layer for speech recognition neural network
US9892344B1 (en) * 2015-11-30 2018-02-13 A9.Com, Inc. Activation layers for deep learning networks
CN105678333B (zh) * 2016-01-06 2020-07-28 浙江宇视科技有限公司 一种拥挤区域的确定方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019458A1 (en) * 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOJIE JIN,ET AL: "Deep Learning with S-shaped Rectified Linear Activation Units", 《HTTPS://ARXIV.ORG/PDF/1512.07030.PDF》 *

Also Published As

Publication number Publication date
EP3497622A4 (en) 2020-03-25
US20190180148A1 (en) 2019-06-13
WO2018027453A1 (en) 2018-02-15
US10956788B2 (en) 2021-03-23
CN109564633B (zh) 2023-07-18
EP3497622A1 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
CN109871781B (zh) 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
Pasupa et al. A comparison between shallow and deep architecture classifiers on small dataset
CN109409198B (zh) Au检测方法、装置、设备及介质
Yan et al. Driving posture recognition by convolutional neural networks
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
Song et al. Deep learning for real-time robust facial expression recognition on a smartphone
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN104361316B (zh) 一种基于多尺度时序建模的维度情感识别方法
CN113705769A (zh) 一种神经网络训练方法以及装置
CN109564633A (zh) 人工神经网络
CN110059593B (zh) 一种基于反馈卷积神经网络的面部表情识别方法
JP6830742B2 (ja) 画素に基づく画像セグメンテーション用のプログラム
CN111183455A (zh) 图像数据处理系统与方法
CN110738141A (zh) 一种静脉识别的方法、装置、设备及存储介质
Tarasiewicz et al. Skinny: A lightweight U-Net for skin detection and segmentation
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
Jain et al. An automated hyperparameter tuned deep learning model enabled facial emotion recognition for autonomous vehicle drivers
Jhang et al. CNN training for face photo based gender and age group prediction with camera
Makarov et al. Russian sign language dactyl recognition
Subarna et al. Real time facial expression recognition based on deep convolutional spatial neural networks
CN112766176B (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
Guo et al. Facial expression recognition: a review
Ji et al. Human‐like sign‐language learning method using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant