CN110121723B - 人工神经网络 - Google Patents
人工神经网络 Download PDFInfo
- Publication number
- CN110121723B CN110121723B CN201680091920.6A CN201680091920A CN110121723B CN 110121723 B CN110121723 B CN 110121723B CN 201680091920 A CN201680091920 A CN 201680091920A CN 110121723 B CN110121723 B CN 110121723B
- Authority
- CN
- China
- Prior art keywords
- elements
- neural network
- feature map
- artificial neural
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 239000003550 marker Substances 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000013555 soy sauce Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
根据本发明的一个示例方面提供了一种设备,包括:存储器,被配置为至少部分地存储卷积人工神经网络的标记信息;以及至少一个处理核,被配置为根据标记信息从输入数据项生成卷积人工神经网络的部分特征图,从部分特征图生成到多个弱分类器的输入,以生成分类决策,其中标记信息标识以下中的至少一个:特征图的用于生成输入的元素,以及特征图的用以生成用于生成该输入的元素的元素。
Description
技术领域
本发明涉及一种人工神经网络,例如卷积人工神经网络。
背景技术
机器学习和机器标识发现了若干应用,例如,机场的自动护照检查,其中人脸的数字图像可以与存储在护照中的表征人的面部的生物特征信息进行比较。
机器标识的另一个例子是手写或打印的文档文本标识,以例如呈现可搜索的书籍内容。另一个例子是行人标识,其中,最终,自动驾驶汽车被视为能够意识到行人在前方并且汽车可以避免冲撞行人。
除了视觉标识之外,口语可以是机器标识的主题。当标识出口语时,可以随后将其输入到解析器以向数字个人助理提供命令,或者可以将其提供给机器翻译程序,从而获得与口语相对应的另一种语言的文本。
机器标识技术采用为此目的而设计的算法。例如,人工神经网络可用于实现机器视觉应用。人工神经网络在本文中可简称为神经网络。机器标识算法可以包括处理功能,标识图像,这样的处理功能可以包括例如滤波,例如形态滤波,阈值处理,边缘检测,模式标识和对象尺寸测量。
神经网络可以包括例如完全连接的层和卷积层。完全连接的层可以包括一层,其中所有神经元都与相邻层,例如前一层上的所有神经元有连接。卷积层可以包括其中神经元从前一层的一部分接收输入的层,该部分例如被称为感受域。
层数越多,与运行人工神经网络相关的计算负荷越大。
发明内容
本发明由独立权利要求的特征限定。一些特定实施例在从属权利要求中限定。
根据本发明的第一方面,提供了一种设备,包括:存储器,被配置为至少部分地存储卷积人工神经网络的标记信息;以及至少一个处理核,被配置为根据标记信息由输入数据项生成卷积人工神经网络的部分特征图,从该部分特征图生成到多个弱分类器的输入以生成分类决策,其中标记信息标识以下至少一个:特征图的生成输入的元素,特征图的以及用以生成用于生成该输入的元素的元素。
第一方面的各种实施例可以包括来自以下分项列表的至少一个特征:
·该设备被配置为,在生成部分特征图时生成由标记信息标识的特征图元素,并且保留未由标记信息标识的特征图元素的至少一部分未生成
·该设备被配置为,在生成部分特征图时,生成由标记信息标识的特征图元素,并且保留所有未由标记信息标识的特征图元素未生成
·该设备被配置为,在生成部分特征图时,保留不包括由标记信息标识的任何元素的特征图未生成
·输入数据项包括图像,视频帧和音频剪辑中的至少一个
·该设备被配置为,响应于多个弱分类器基于部分特征图的部分生成所采取的分类决策,停止分析输入数据项
·该设备被配置为,响应于弱分类器基于部分特征图未到达的分类决策而生成默认分类决策
·默认分类决策包括在输入数据项中检测到对象
·卷积人工神经网络包括19层
·卷积人工神经网络被配置为,使用整个输入数据项,输入数据项包括图像。
根据本发明的第二方面,提供了一种方法,包括至少部分地存储卷积人工神经网络的标记信息,根据标记信息从输入数据项生成卷积人工神经网络的部分特征图,从部分特征图生成到多个弱分类器的输入以生成分类决策,其中标记信息标识以下中的至少一个:特征图的生成输入的元素,以及特征图的如下元素,该元素用于生成对该输入进行生成的元素。
第二方面的各种实施例可以包括来自以下分项列表的至少一个特征:
·该方法包括在生成部分特征图时生成由标记信息标识的特征图元素,并且保留未由标记信息标识的特征图元素的至少一部分未生成
·该方法包括在生成部分特征图时生成由标记信息标识的特征图元素,并且保留所有未由标记信息标识的特征图元素未生成
·该方法包括在生成部分特征图时,保留不包括由标记信息标识的任何元素的特征图未生成
·输入数据项包括图像,视频帧和音频剪辑中的至少一个
·该方法包括响应于多个弱分类器基于部分特征图的部分生成而采取的分类决策,停止分析输入数据项
·该方法包括响应于弱分类器基于部分特征图未到达的分类决策,生成默认分类决策
·默认分类决策包括在输入数据项中检测到对象
·卷积人工神经网络包括19层
·卷积人工神经网络被配置为,使用整个输入数据项,输入数据项包括图像。
根据本发明的第三方面,提供了一种设备,包括用于至少部分地存储卷积人工神经网络的标记信息的装置,用于根据标记信息从输入数据项生成卷积人工神经网络的部分特征图的装置,用于从部分特征图生成到多个弱分类器的输入以生成分类决策的装置,其中标记信息标识以下中的至少一个:特征图的生成输入的元素,以及特征图的以下元素,该元素用于生成对该输入进行生成的元素。
根据本发明的第四方面,提供了一种非瞬态计算机可读介质,其上存储有一组计算机可读指令,当计算机可读指令由至少一个处理器执行时,使得设备至少至少部分地存储卷积人工神经网络的标记信息,根据标记信息从输入数据项生成卷积人工神经网络的部分特征图,从部分特征图生成到多个弱分类器的输入,以生成分类决策,其中标记信息标识以下中的至少一个:特征图的生成输入的以下元素,该元素用于生成对该输入进行生成的元素。
根据本发明的第五方面,提供了一种计算机程序,被配置为使得执行根据第二方面的方法。
附图说明
图1示出了能够支持本发明的至少一些实施例的示例系统;
图2示出了根据本发明的至少一些实施例的层;
图3示出了能够支持本发明的至少一些实施例的示例设备;
图4示出了根据本发明的至少一些实施例的神经网络;以及
图5是根据本发明的至少一些实施例的方法的流程图。
具体实施方式
可以通过仅计算神经网络的部分特征图来控制运行卷积神经网络CNN的计算负荷,尤其是具有大量层的CNN。为了在保持神经网络的检测能力的同时实现这一点,可以忽略这些特征图的元素,其不直接或间接地促成分类决策。为了促进这一点,可以标记特征图的元素以使得能够生成标记元素,这有助于做出决定,并且保留元素未生成,这些元素对于关于输入数据项的决定没有贡献,例如,以及还有图片。
图1示出了能够支持本发明的至少一些实施例的示例系统。图1具有道路101的视图110,行人120在其上行走。尽管在本文中结合图1在检测行人方面进行了描述,但是本发明不限于此,但是如本领域技术人员将理解的,本发明还更普遍地适用于视觉,音频或其他类型的数据中的机器标识,或者实际上更普遍的是操作人工神经网络。例如,取决于所讨论的实施例,自行车标识,手写标识,面部标识,交通标志标识,语音标识,语言标识,手语标识和/或垃圾邮件标识可以从本发明中受益。
在图1中,道路101由摄像机成像。摄像机可以被配置为至少部分地捕获覆盖道路的视图110。摄像机可以被配置为预处理从包括在相机中的图像捕获设备(例如电荷耦合设备CCD)获得的图像数据。预处理的示例包括降低至黑白,对比度调整和/或亮度平衡,以增加捕获图像中存在的动态范围。在一些实施例中,图像数据还被缩放到适合于馈送到图像标识算法,例如AdaBoost的比特深度。预处理可以包括选择感兴趣的区域,例如区域125,例如,用于馈送到图像标识算法中。取决于实施例,预处理本质上可以不存在或受限制。例如,摄像机可以安装在配置成自行驾驶的汽车中,或者收集训练数据。可替换地,摄像机可以安装在设计成由人类驾驶员驾驶的汽车中,但是如果汽车看起来将要撞到行人或动物,则提供警告和/或自动制动。
来自摄像机的图像馈送可用于生成用于训练神经网络的测试数据集。这样的数据集可以包括训练样本。训练样本可以包括静止图像,例如视频图像帧或短视频剪辑。在要标识的输入数据不是可视数据的情况下,输入数据可以包括例如从模数转换器获得的数字样本的矢量。例如,模数转换器可以从麦克风获得模拟馈送,并从模拟馈送生成样本。总之,如上所述,非视觉形式的数据也可以是机器标识的主题。例如,加速度计或旋转传感器数据可用于检测人是走路,跑步还是跌倒。由于可以训练神经网络以标识视图110中的对象,因此训练阶段可以在神经网络的使用阶段或测试阶段之前。
为了控制使用神经网络的计算负荷,可以使用神经网络的部分特征图来形成弱分类器,例如使用级联AdaBoost。由于级联AdaBoost的级联属性,神经网络的一些特征图用于形成弱分类器。在弱分类器给出输入不包括对象的决定的情况下,拒绝输入并停止计算。否则,如果弱分类器不能拒绝输入,则计算继续。在最终弱分类器不能拒绝输入的情况下,可以认为输入包括对象,换句话说,可以到达检测到对象的分类决策。
当使用部分特征图来形成弱分类器时,在形成弱分类器时,一些特征图可以在没有到弱分类器的输入的情况下被保留。换句话说,一些特征图根本不影响弱分类器的功能。这些特征图可以在其整体中保持未生成,以节省计算资源。
类似地,当使用部分特征图来形成弱分类器时,确实向弱分类器提供输入的特征图的一些特征图元素可能不会影响弱分类器的功能。特征图可包括多个元素,例如,尺寸为128×128的元素的特征图包括16384个元素。原则上,只有少数这些可以向分类器提供输入,因此可以通过仅计算提供输入所需的少数元素来为分类器提供输入。例如,可能需要16384中的三个元素,因此除非需要将输入馈送到另一个分类器,否则可以不生成其他16381个元素。向至少一个分类器(例如,弱分类器)提供输入的元素在本文中被称为选择元素,其在标记信息中被标识。
为了进一步节省计算资源,还可以部分地生成在神经网络中先于将输入馈送到分类器的特征图的特征图。详细地,可以生成这种先前特征图的元素,直到生成后续层选择元素所需的程度。也可以在标记信息中标识影响所选元素的生成的这种先前特征图的元素。换句话说,可以在标记信息中标识所选元素的感受域中的元素。
总之,从卷积神经网络的最后一层到第一层,可以在标记信息中标识所选择的元素,可以在标记信息中标识所选元素的感受野中的元素,此外,可以在标记信息中标识标记信息中标识的元素的感受域中的元素。因此,标记信息可以准确地标识那些需要生成的元素,以通过所选择的元素向分类器提供输入。标记信息可以直接标识这些元素,或者,在一些实施例中,标记信息可以直接标识可能未被生成的元素。在任何一种情况下,标记信息直接或间接地指示元素需要生成分类器的输入。当元素被间接标识时,它们是直接标识的元素的补充。
在使用多个弱分类器的情况下,存在向这些弱分类器提供输入的多个所选元素。因此,标记信息将使得能够在整个神经网络的特征图中标识元素,这些元素需要被生成以便向弱分类器提供输入。在产生对多于一个弱分类器的输入方面可能需要一些元素,例如在神经网络的早期层中,而许多元素可能在标记信息中保持未标识。这些未标识的元素可以在整个神经网络中保持未生成,以节省计算资源。
例如,其中层i在层i-1之前,并且大小为3×3的内核用于从层i-1生成层i,则对于层i上的所选元素,层i-1中的九个元素可以被生成。更进一步,在层i-2中,假设在从层i-2生成层i-1中内核大小也是3×3,可以生成25个元素以使得能够生成层i-1中的九个元素,这九个元素然后允许在层i中生成所选元素。
神经网络在图1中示意性地示出为第一层130,第二层140和第三层150。实际网络可包括多于三层。每层的特征图的元素可以被划分为在标记信息中标识的元素和未如此标识的元素,并且可以通过仅生成在标记信息中标识的元素来节省计算资源。
图2示出了根据本发明的至少一些实施例的层。层210在层220之前,层220又在神经网络中的层230之前。
在层210的特征图中包括元素212和214,其向弱分类器提供输入。如上所述,这些元素在本文中称为所选元素。这些元素在图2所示的特征图中用标记“x”表示。
层220中的感受域222用于在层210中生成所选元素212。感受域222的大小取决于用于从层生成层210的特征图或特征图的内核(也称为滤波器)。类似地,层220中的感受域224用于在层210中生成所选元素214。
此外,层230中的域232用于在层220中生成感受域222。类似地,层230中的域234用于在层220中生成感受域224。通常,对于所选元素有贡献的域可以朝向神经网络的开始逐渐变大,因为后续层中的域边缘处的元素的感受域可以在每个方向上延伸。这样,域232和234被绘制得略大于图2中的域222和224。
为了生成图2中所示的神经网络的标记信息,可以首先在标记信息中标识所选择的元素212和214,然后在层220中添加相应的感受域222和224,最后在层中的域232和234,因为它们对域222和224有贡献,从而对选择的元素212和214有贡献。通过向标记信息添加域,意味着在标记信息中标识包含在域中的元素。
在一些实施例中,标记信息仅标识向分类器提供输入的所选元素,而在其他实施例中,为分类器提供输入的所选元素以及直接或间接包括在所选元素的感受域中的元素在标记信息中标识。
在使用中,可以生成在标记信息中标识的元素,并且可以不生成在标记信息中未标识的元素。由于贡献域向图2的左侧增长,即朝向神经网络的早期层,计算能力的节省可能对神经网络的后期层变得更加明显,因为在标记信息中标识特征图中包含的较小比例的元素。
通常,神经网络的层可以具有多于一个的特征图,尽管为了简单起见,图2中的层210,220和230被示为具有一个特征图。
图3示出了能够支持本发明的至少一些实施例的示例设备。图示的是装置300,其可以包括例如计算装置,例如服务器,节点或云计算装置。装置300可以被配置为运行神经网络,例如本文所述。处理器310包括在设备300中,处理器310可以包括例如单核或多核处理器,其中单核处理器包括一个处理核,而多核处理器包括一个以上处理核。处理器310可包括一个以上的处理器。处理核心可以包括例如ARM Holdings的Cortex-A8处理核心或Advanced Micro Devices Corporation生产的Steamroller处理核心。例如,处理器310可以包括至少一个Qualcomm Snapdragon和/或Intel Core处理器。处理器310可以包括至少一个专用集成电路ASIC。处理器310可以包括至少一个现场可编程门阵列FPGA。处理器310可以是用于执行装置300中的方法步骤的设备。处理器310可以至少部分地由计算机指令配置以执行动作。
装置300可以包括存储器320。存储器320可以包括随机存取存储器和/或永久存储器。存储器320可以包括至少一个RAM芯片。例如,存储器320可以包括固态,磁性,光学和/或全息存储器。存储器320可以至少部分地由处理器310访问。存储器320可以至少部分地包括在处理器310中。存储器320可以是用于存储信息的装置。存储器320可以包括被处理器310执行的计算机指令。当被配置为使处理器310执行特定动作的计算机指令被存储在存储器320中时,并且装置300整体被配置为在处理器310的指导下使用来自存储器320的计算机指令运行时,处理器310和/或其至少一个处理核心可以认为被配置为执行所述特定动作。存储器320可以至少部分地包括在处理器310中。存储器320可以至少部分地在装置300外部但是可以由装置300访问。存储器320中的计算机指令可以包括多个应用程序或过程。例如,机器学习算法(例如具有其分类器的AdaBoost算法)可以在一个应用程序或过程中运行,摄像机功能可以在另一个应用程序或过程中运行,并且机器学习过程的输出可以被提供给另一个应用程序。或者可以包括汽车驾驶过程的过程,例如,响应于在摄像机视图中标识行人而触发制动动作。
装置300可以包括发射机330。装置300可以包括接收机340。发射机330和接收机340可以被配置为分别根据至少一个通信标准发送和接收信息。发射机330可包括一个以上的发射机。接收机340可包括一个以上的接收机。发射机330和/或接收机340可以被配置为根据无线局域网,WLAN,以太网,通用串行总线,USB和/或用于微波接入的全球互操作性,例如WiMAX,标准来操作。替代地或另外地,可以使用专有通信框架。
装置300可以包括用户界面UI 360。UI 360可以包括:显示器;键盘;触摸屏;振动器,被布置成通过使装置300振动来向用户发信号;扬声器;和麦克风中的至少一个。用户可能能够经由UI 360操作装置300,例如以配置机器学习参数和/或开启和/或关闭装置300。
处理器310可以配备有发射机,该发射机被设置为经由装置300内部的电引线从处理器310输出信息到装置300中包括的其他装置。这种发射机可以包括串行总线发射机,其被布置为例如酱油至少一个电引线将信息输出到存储器320以便存储在其中。作为串行总线的替代,发射机可以包括并行总线发射机。同样地,处理器310可以包括接收机,该接收机被布置成经由装置300内部的电引线从装置300中包括的其他装置接收处理器310中的信息。这样的接收机可以包括串行总线接收机,其被布置为例如经由至少一个电引线从接收机340接收信息,用于在处理器310中处理。作为串行总线的替代,接收机可以包括并行总线接收机。
装置300可以包括图3中未示出的其他装置。例如,在装置300包括智能电话的情况下,它可以包括至少一个数字摄像机。一些装置300可以包括后置摄像头和前置摄像头,其中后置摄像头可以用于数字摄影,而前置摄像头用于视频电话。装置300可以包括指纹传感器,该指纹传感器被布置成至少部分地认证装置300的用户。在一些实施例中,装置300缺少至少一个上述装置。
处理器310,存储器320,发射机330,接收机340和/或UI 360可以通过多种不同方式由装置300内部的电引线互连。例如,前述装置中的每一个可以单独连接到装置300内部的主总线,以允许装置交换信息。然而,如技术人员将理解的,这仅是一个示例,并且取决于实施例,可以选择互连至少两个前述装置的各种方式而不脱离本发明的范围。
图4示出了根据本发明的至少一些实施例的神经网络。输入数据项410(例如图像)被提供给第一层420。在所示示例中,第一层420包括三个特征图,其中仅第一特征图包括所选元素,其在图中标记为“x”。这些元素向弱分类器450提供输入。
在所示示例中,第二层430包括三个特征图,其中第一和最后特征图包括所选元素,在图中用标记“x”表示。如图所示,这些元素向弱分类器452和454提供输入。神经网络可以包括两个以上的层,并且层不需要具有恰好三个特征图。
在使用中,根据标记信息生成特征图的元素,如上文所述。不需要生成不包括所选元素并且在后续层中生成所选元素时不需要的特征图。响应弱分类器450,基于其接收的输入,确定输入数据项中不存在对象,处理前进到分支“N”,并且输入数据项在阶段460中被分配给分类决策“无对象”。否则,选择分支“Y”并进行处理。
如果弱分类器450没有到达“无对象”分类决策,则根据标记信息生成下一个特征图,直到向弱分类器452提供其输入。这里,响应于弱分类器452,基于其接收的输入,确定输入数据项中不存在对象,处理前进到分支“N”,并且输入数据项在阶段460中被分配给分类决策“无对象”。否则,选择分支“Y”并进行处理。
一旦生成了第二层430的最后特征图,则在标记信息中标识的元素中,向弱分类器454提供其输入。响应弱分类器454,基于其接收的输入,确定输入数据项中不存在对象,处理前进到分支“N”,并且在阶段460中为输入数据项分配分类决策“无对象”。否则,选择分支“Y”并且处理前进到阶段470,其中输入数据项被分配分类决策“检测到对象”,因为没有弱分类器能够拒绝输入数据项。
由于仅部分地生成特征图,因此能够以提高的计算效率以及减少对存储器的需求来获得技术效果。由于可以生成有助于分类决策的所有元素,因此在至少一些实施例中,可以在不降低分类性能的情况下获得这些优点。
关于众所周知的Caltech行人数据集的实验结果证明了所提出方法的优点。加州理工学院的行人数据集可在http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians获取。为了获得实验结果,如K.Simonyan和A.Zisserman所描述的VGG,“用于大比例图像标识的非常深的卷积网络”,CoRR,abs/1409.1556,2015被采用作为CNN。VGG网络有19层。参数是从Caltech行人数据集的训练图像中学习的。对于640×480像素的测试图像,有47335个候选窗口。一个或多个候选窗口包含一个行人或多个行人。假设仅使用中央处理单元CPU,并且没有图形处理单元GPU可用。本方法的检测速度为每秒2.3帧,fps,而CNN-LLD X Jiang“神经网络对象检测”,PCT/CN2014/094033,2014的检测速度为0.09fps,并且MCF J.Cao,Y。Pang和X.Li,“学习行人检测的多层通道特征”,arXivpreprint arXiv:1603.00124,的检测速度为0.54fps。本方法优于现有方法的优越性是显着的。
图5是根据本发明的至少一些实施例的方法的流程图。所示方法的阶段可以在布置成运行神经网络的装置中执行,例如,通过这种装置的控制装置。
阶段510包括至少部分地存储卷积人工神经网络的标记信息。阶段520包括根据标记信息从输入数据项生成卷积人工神经网络的部分特征图。最后,阶段530包括从部分特征图生成到多个弱分类器的输入以生成分类决策。标记信息可以标识以下内容:特征图的生成输入的元素,以及特征图的用以生成用于生成该输入的元素的元素。
应理解,所公开的本发明的实施方案不限于本文公开的特定结构,工艺步骤或材料,而是延伸至其等同物,如相关领域的普通技术人员将认识到的。还应该理解,本文采用的术语仅用于描述特定实施方案的目的,而不是限制性的。
本说明书中对一个实施例或实施例的引用意味着结合该实施例描述的特定特征,结构或特性包括在本发明的至少一个实施例中。因此,贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在实施例中”不一定都指代相同的实施例。在使用术语(例如,大约或基本上)参考数值的情况下,还公开了精确的数值。
如本文所使用的,为方便起见,可以在共同列表中呈现多个项目,结构元素,组成元素和/或材料。但是,这些列表应该被解释为好像列表中的每个成员都被单独标识为一个独立且独特的成员。因此,不应将此类列表中的任何单独成员理解为事实上等同于同一列表中的任何其他成员,仅基于它们在共同组中的呈现而没有相反的指示。另外,本文中的各种实施方案和实施例可以与其各种组成的替代物一起提及。应当理解,这些实施例,示例和替代方案不应被解释为彼此的事实上的等同物,而是应被视为本发明的单独和自主的表示。
此外,所描述的特征,结构或特性可以在一个或多个实施例中以任何合适的方式组合。在前面的描述中,提供了许多具体细节,例如长度,宽度,形状等的示例,以提供对本发明实施例的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下或者利用其他方法,组件,材料等来实践本发明。在其他情况下,众所周知的结构,材料或操作未详细示出或描述以避免模糊本发明的各方面。
虽然前述示例在一个或多个特定应用中说明了本发明的原理,但是对于本领域普通技术人员来说显而易见的是,可以在没有形式,用法和实现细节的情况下进行多种修改。在不脱离本发明的原理和概念的情况下,发明创造性的教师。因此,除了下面提出的权利要求之外,并不意图限制本发明。
动词“包括”和“包括”在本文中用作开放限制,其既不排除也不要求也存在未记载的特征。除非另有明确说明,否则从属权利要求中所述的特征可相互自由组合。此外,应该理解,在整个文献中使用“一”或“一个”,即单数形式,并不排除多个。
工业实用性
本发明的至少一些实施例在优化机器标识方面找到工业应用,例如,减少自动驾驶车辆中的交通事故。
缩略语
CNN 卷积神经网络
CPU 中央处理单元
fps 每秒帧数
GPU 图形处理单元
WiMAX 全球微波接入互操作性
WLAN 无线局域网
参考标号列表
110 | 视图 |
101 | 道路 |
125 | 感兴趣的区域 |
120 | 行人 |
130 | 第一层 |
140 | 第二层 |
150 | 第三层 |
300–360 | 图3的设备的结构 |
410-430 | 图4中示出的神经网络的层 |
450,452,454 | 弱分类器(图4) |
460 | 拒绝决策(图4) |
470 | 接收决策(图4) |
510–530 | 图5的方法的阶段 |
Claims (8)
1. 一种用于数据中对象检测的设备,包括:
-存储器,被配置为存储卷积人工神经网络的标记信息,其中
所述标记信息标识:
所述卷积人工神经网络的第一层的特征图中的所选元素;以及
所述第一层的特征图中的一组元素,所述一组元素用于生成所述卷积人工神经网络的后续层的第二特征图中的第二所选元素;
-至少一个处理核心,被配置为通过以下方式在数据中执行对象检测:
基于所述标记信息,从输入数据项仅生成所述所选元素和所述特征图的所述一组元素,以及
使用弱分类器基于所述所选元素生成分类决策,
其中,所述输入数据项包括图像、视频帧和音频剪辑中的至少一个。
2.根据权利要求1所述的设备,其中,所述设备被配置为响应于所述弱分类器采取所述分类决策,停止执行或执行对所述输入数据项的所述对象检测。
3. 根据权利要求2所述的设备,其中,所述设备被配置为响应于所述弱分类器确定所述输入数据项不包括对象来停止执行对象检测。
4. 根据权利要求3所述的设备,其中,所述至少一个处理核心被进一步配置为响应于所述弱分类器检测所述输入数据可能包括对象,以
从所述一组元素生成所述卷积人工神经网络的所述后续层的所述第二所选元素;以及
使用第二弱分类器基于所述第二所选元素生成第二分类决策。
5.根据权利要求4所述的设备,其中,所述设备被配置为响应于所述第二弱分类器未到达在所述输入数据项中不存在对象的所述分类决策,生成检测到对象的默认分类决策。
6.根据权利要求1所述的设备,其中,所述卷积人工神经网络包括19层。
7.一种用于数据中的对象检测的方法,包括:
-存储卷积人工神经网络的标记信息,其中:所述标记信息标识:
所述卷积人工神经网络的第一层的特征图中的所选元素;以及
所述第一层的特征图中的一组元素,所述一组元素用于生成所述卷积人工神经网络的后续层的第二特征图中的第二所选元素;
-使用至少一个处理核心,基于所述标记信息,从输入数据项仅生成所述所选元素和所述特征图的所述一组元素;以及
-使用所述至少一个处理核心,利用弱分类器从所述所选元素生成分类决策,
其中,所述输入数据项包括图像、视频帧和音频剪辑中的至少一个。
8.一种非瞬态计算机可读介质,具有存储在其上的计算机可读指令的集合,所述计算机可读指令当由至少一个处理器执行时,使得设备通过至少以下在数据中执行对象检测:
-存储卷积人工神经网络的标记信息,其中:
所述标记信息标识:
所述卷积人工神经网络的第一层的特征图中的所选元素;以及
所述第一层的特征图中的一组元素,所述一组元素用于生成所述卷积人工神经网络的后续层的第二特征图中的第二所选元素;
基于所述标记信,息从输入数据项仅生成所述所选元素和所述特征图的所述一组元素;以及
使用弱分类器从所述所选元素生成分类决策,
其中,所述输入数据项包括图像、视频帧和音频剪辑中的至少一个。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/113429 WO2018120000A1 (en) | 2016-12-30 | 2016-12-30 | Artificial neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110121723A CN110121723A (zh) | 2019-08-13 |
CN110121723B true CN110121723B (zh) | 2024-01-12 |
Family
ID=62706560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680091920.6A Active CN110121723B (zh) | 2016-12-30 | 2016-12-30 | 人工神经网络 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11042722B2 (zh) |
EP (1) | EP3563305A4 (zh) |
CN (1) | CN110121723B (zh) |
WO (1) | WO2018120000A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344695B (zh) * | 2018-08-14 | 2022-03-22 | 中山大学 | 一种基于特征选择卷积神经网络的目标重识别方法和装置 |
WO2020240809A1 (ja) * | 2019-05-31 | 2020-12-03 | 楽天株式会社 | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム |
JP2023526329A (ja) * | 2020-05-15 | 2023-06-21 | パーセプティブ オートマタ インコーポレイテッド | 自律車両のための機械学習ベースモデルの検証およびトレーニングのためのシナリオ識別 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1630723A2 (en) * | 2004-08-26 | 2006-03-01 | Microsoft Corporation | Spatial recognition and grouping of text and graphics |
CN105528638A (zh) * | 2016-01-22 | 2016-04-27 | 沈阳工业大学 | 灰色关联分析法确定卷积神经网络隐层特征图个数的方法 |
WO2016149881A1 (en) * | 2015-03-20 | 2016-09-29 | Intel Corporation | Object recogntion based on boosting binary convolutional neural network features |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104781827B (zh) * | 2012-12-18 | 2018-10-19 | 英特尔公司 | 用于加速对象检测的硬件卷积预过滤 |
CN104200269A (zh) * | 2014-09-09 | 2014-12-10 | 江南大学 | 一种基于在线学习最小嵌入维网络的实时故障诊断方法 |
US10650508B2 (en) * | 2014-12-03 | 2020-05-12 | Kla-Tencor Corporation | Automatic defect classification without sampling and feature selection |
CN107004138A (zh) | 2014-12-17 | 2017-08-01 | 诺基亚技术有限公司 | 利用神经网络的对象检测 |
CN104767449B (zh) | 2015-03-02 | 2018-04-24 | 江苏大学 | 无轴承异步电动机rbf神经网络自适应逆解耦控制及参数辨识方法 |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
CN104732303A (zh) * | 2015-04-09 | 2015-06-24 | 中国石油大学(华东) | 一种基于动态径向基函数神经网络的油田产量预测方法 |
-
2016
- 2016-12-30 EP EP16925674.0A patent/EP3563305A4/en active Pending
- 2016-12-30 CN CN201680091920.6A patent/CN110121723B/zh active Active
- 2016-12-30 WO PCT/CN2016/113429 patent/WO2018120000A1/en unknown
- 2016-12-30 US US16/474,368 patent/US11042722B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1630723A2 (en) * | 2004-08-26 | 2006-03-01 | Microsoft Corporation | Spatial recognition and grouping of text and graphics |
WO2016149881A1 (en) * | 2015-03-20 | 2016-09-29 | Intel Corporation | Object recogntion based on boosting binary convolutional neural network features |
CN105528638A (zh) * | 2016-01-22 | 2016-04-27 | 沈阳工业大学 | 灰色关联分析法确定卷积神经网络隐层特征图个数的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018120000A1 (en) | 2018-07-05 |
US20190340416A1 (en) | 2019-11-07 |
US11042722B2 (en) | 2021-06-22 |
EP3563305A4 (en) | 2020-08-05 |
EP3563305A1 (en) | 2019-11-06 |
CN110121723A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018120013A1 (en) | Artificial neural network | |
CN107851195B (zh) | 利用神经网络进行目标检测 | |
JP6709283B2 (ja) | 低解像度リモートセンシング画像を用いた移動車両の検出及び分析 | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
WO2016095117A1 (en) | Object detection with neural network | |
WO2016107103A1 (zh) | 图像主体区域的识别方法及装置 | |
CN105512683A (zh) | 基于卷积神经网络的目标定位方法及装置 | |
Pan et al. | A primary travelling assistant system of bus detection and recognition for visually impaired people | |
CN110121723B (zh) | 人工神经网络 | |
US10956788B2 (en) | Artificial neural network | |
KR20150096264A (ko) | 관심 객체 고속 검출 장치 및 그 방법 | |
KR101268520B1 (ko) | 영상 인식 장치 및 방법 | |
Su et al. | A new local-main-gradient-orientation HOG and contour differences based algorithm for object classification | |
Bahri et al. | Real-time moving human detection using HOG and Fourier descriptor based on CUDA implementation | |
JP2016095701A (ja) | 画像処理装置、画像処理方法、及び、プログラム | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
CN112750128B (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
Golgire | Traffic Sign Recognition using Machine Learning: A Review | |
US11651230B2 (en) | Artificial neural network | |
Kavitha et al. | Text detection based on text shape feature analysis with intelligent grouping in natural scene images | |
GUO et al. | Face Detection Face Detection, Alignment Alignment, Quality Assessmentand Attribute Analysis with Multi-TaskHybridConvolutionalNeuralNetworks | |
Yuan et al. | Vehicle detection based on area and proportion prior with faster-RCNN | |
GUO et al. | Face detection, alignment, quality assessment and attribute analysis with multi-task hybrid convolutional neural networks | |
US11494590B2 (en) | Adaptive boosting machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |