CN107077734B - 决定方法以及记录介质 - Google Patents

决定方法以及记录介质 Download PDF

Info

Publication number
CN107077734B
CN107077734B CN201680002592.8A CN201680002592A CN107077734B CN 107077734 B CN107077734 B CN 107077734B CN 201680002592 A CN201680002592 A CN 201680002592A CN 107077734 B CN107077734 B CN 107077734B
Authority
CN
China
Prior art keywords
filters
filter
merging
dividing
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680002592.8A
Other languages
English (en)
Other versions
CN107077734A (zh
Inventor
M·Y·金
L·里加佐
筑泽宗太郎
小冢和纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority claimed from PCT/JP2016/000462 external-priority patent/WO2016125476A1/ja
Publication of CN107077734A publication Critical patent/CN107077734A/zh
Application granted granted Critical
Publication of CN107077734B publication Critical patent/CN107077734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及决定方法以及程序,所述决定方法用于决定卷积神经网络的构造,包括:取得步骤(S10),取得使用学习用图像群学习了权重的N个(N是大于等于1的自然数)滤波器作为初始值;以及分割步骤(S20),通过追加针对N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使该N个滤波器增加到比N个多的M个(M是大于等于2的自然数)滤波器。

Description

决定方法以及记录介质
技术领域
本公开涉及决定方法以及程序,尤其涉及决定卷积神经网络的构造的决定方法及其程序。
背景技术
近年来,通过使用深度学习(Deep Learning),图像识别的性能显著提高。深度学习作为使用多层的神经网络的机器学习的方法论而为人所知,关于这种多层神经网络,例如可使用卷积神经网络(例如参照非专利文献1)。在此,卷积神经网络由反复进行局部区域的卷积(Convolution)和池化(Pooling)的多层的神经网络构成。在非专利文献1中,作为卷积神经网络的构造,提出通过在池化层之间夹入多个卷积层而使卷积层多层化的神经网络的构造,公开了通过该构造能够提高图像识别的性能。
现有技术文献
非专利文献
非专利文献1:Min Lin,Qiang Chen,Shuicheng Yan,“Network In Network”
发明内容
为了解决上述问题,本公开的一个技术方案涉及的决定方法,用于决定卷积神经网络的构造,包括:取得步骤,取得使用学习用图像群学习了权重的N个滤波器(filter)作为初始值,其中,N是大于等于1的自然数;以及分割步骤,通过追加针对所述N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使所述N个滤波器增加到比所述N个多的M个滤波器,其中,M是大于等于2的自然数。
此外,这些总括性或者具体的技术方案既可以通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
根据本公开,能实现能够更简便地决定卷积神经网络的构造的决定方法等。
附图说明
图1是表示实施方式的决定装置的结构的一例的框图。
图2A是用于说明卷积神经网络的辨识处理的概要的图。
图2B是用于说明卷积神经网络的辨识处理的概要的图。
图3是用于说明图1所示的决定装置所进行的分割处理的概要的图。
图4是表示图1所示的分割部所进行的分割处理的一例的图。
图5是用于说明图1所示的决定装置所进行的合并处理的概要的图。
图6是表示图1所示的合并部所进行的合并处理的一例的图。
图7是表示实施方式中的决定处理的一例的流程图。
图8是表示图7所示的步骤S20的详细处理的一例的流程图。
图9是表示图7所示的步骤S30的详细处理的一例的流程图。
图10是表示实施例1中的决定装置的决定处理的算法的详细的一例的图。
图11是表示实施例1中的决定装置的决定处理的一例的图。
图12A是用于说明实施例1的合并处理的有效性的图。
图12B是用于说明实施例1的合并处理的有效性的图。
图12C是用于说明实施例1的合并处理的有效性的图。
图12D是用于说明实施例1的合并处理的有效性的图。
图13是表示实施例2中的多个数据集(dataset)的各数据集中的辨识性能的值的图。
图14是表示使用MNIST数据集的模型构造的一例的图。
图15是表示在对MNIST模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。
图16是表示在对GTSRB1模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。
图17是表示对GTSRB1模型构造、和本公开的分割处理或者合并处理后的GTSRB1模型构造进行了最优化时的误差函数的输出值的图。
图18是表示使用GTSRB数据集的模型构造的一例的图。
图19是表示在对GTSRB-3DNN模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。
图20是表示在对CIFAR-10模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。
图21是表示在进行了本公开的合并处理的情况下的辨识计算时间的比较的图。
具体实施方式
(成为发明的基础的见解)
近年来,不仅对图像识别,还对声音识别、机器翻译等机器学习使用DNN(DeepNeural Network,深度神经网络)等多层的神经网络,由此,显著提高了它们的性能。DNN通过理论上得到证实的建模以及泛化能力,获得了提高它们的性能的成果。该成果实质上除了通过改善高速地进行参数检测的训练算法以外,还能够通过改善持续增加的数据集以及强化新的计算机平台来获得。
然而,通常是在由该领域的专家手动地决定多层的神经网络的构造之后,开始进行参数决定(所谓训练)。而且,多层的神经网络的构造在上述性能的提高中占据相当大的部分,依赖于由积累了相当多经验的专家反复进行实验来决定。
例如,如上所述,在非专利文献1中,提出通过在池化层之间夹入多个卷积层而使卷积层多层化的神经网络的构造。然而,该构造复杂,是只有专家能够决定(设计)的构造。
也就是说,存在无法由专家以外的人员顺利地决定(设计)对图像识别有效的卷积神经网络的构造这一问题。
于是,发明人(们)想到一边进行参数决定一边简便地(或者自动地)决定卷积神经网络的构造的决定方法及其程序。
即,本公开的一个技术方案涉及的决定方法,用于决定卷积神经网络的构造,包括:取得步骤,取得使用学习用图像群学习了权重的N个滤波器作为初始值,其中,N是大于等于1的自然数;以及分割步骤,通过追加针对所述N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使所述N个滤波器增加到比所述N个多的M个滤波器,其中,M是大于等于2的自然数。
由此,能够更简便地决定卷积神经网络的构造,因此,专家以外的人员也能够利用对图像识别有效的卷积神经网络的构造。
另外,例如,也可以为,在所述分割步骤中,包括分割评价步骤,在该分割评价步骤中,使用所述学习用图像群,使所述M个滤波器学习权重,由此,评价所述M个滤波器的辨识性能,当在所述分割评价步骤中评价出的辨识性能在所述N个滤波器的辨识性能以下的情况下,再次进行所述分割步骤。
另外,例如,也可以为,还包括合并步骤,通过对所述M个滤波器进行聚类并选择簇(cluster,聚类)中心的滤波器,将所述M个滤波器合并成比所述M个少的L个滤波器,其中,L是大于等于1的自然数。
另外,例如,也可以为,在所述合并步骤中,使用k-means(k均值)法将所述M个滤波器聚类成预先确定的L个簇。
另外,例如,也可以为,在所述合并步骤中,使用近邻传播(Affinitypropagation,仿射传播)法对所述M个滤波器进行聚类。
另外,例如,也可以为,所述变换包括随机决定的角度下的旋转变换,在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述旋转变换后的滤波器。
另外,例如,也可以为,所述变换包括随机决定的标准偏差的高斯噪声(Gaussiannoise)的赋予,在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述高斯噪声的赋予后的滤波器。
另外,例如,也可以为,所述变换包括进行变换以使得成为随机决定的对比度的对比度变换,在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述对比度变换后的滤波器。
另外,例如,也可以为,所述变换包括进行变换以使得成为随机决定的尺度(scale)的尺度变换,在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述尺度变换后的滤波器。
以下说明的实施方式均表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。
(实施方式)
以下,参照附图,进行对实施方式中的决定装置10的决定方法等的说明。
[决定装置10的结构]
图1是表示本实施方式的决定装置10的结构的一例的框图。图2A以及图2B是用于说明卷积神经网络的辨识处理的概要的图。
图1所示的决定装置10具备取得部11、分割部12、合并部13以及输出部15,决定卷积神经网络的构造。决定装置10通过计算机等实现。
在此,下面对卷积神经网络(Convolutional Neural Network:CNN)的一般处理进行说明。
卷积神经网络常用于图像识别领域,通过对二维图像进行基于滤波器的卷积,从图像中提取特征量。如上所述,卷积神经网络由反复进行卷积和池化的多层网络构成。而且,使用大量的学习用图像(学习用图像群)等大量的数据,来学习在卷积神经网络中构成卷积层的对辨识有效的滤波器的系数。该系数可通过使用大量的数据进行如下学习来获得:通过反复进行基于滤波器的卷积和汇总一定区域的反应的池化,而获得对于多种变形的不变性。此外,已知卷积神经网络的辨识性能依赖于构成卷积层的滤波器。
在图2A以及图2B所示的例子中,示出了使用学习用图像群作为大量的数据,学习了对图像辨识有效的滤波器的系数的、由两层网络构成的卷积神经网络。而且,示出了使这样的卷积神经网络辨识表示“9”的数字图像的处理。此外,在图2A以及图2B中,在基于滤波器的卷积之后,使用斜坡函数(ramp function,ReLU)作为激励函数(activationfunction)。
在本实施方式的决定装置10中,决定构成卷积神经网络的卷积层的滤波器,作为卷积神经网络的构造。此外,在有多个卷积层的情况下,决定至少构成一个卷积层的滤波器。当然,也可以决定构成所有卷积层的滤波器。由此,决定装置10能够决定由具有所决定的滤波器的卷积层构成的卷积神经网络。
[取得部11]
取得部11取得作为初始值的多个滤波器,取得学习用图像。
更具体而言,取得部11取得使用学习用图像群学习了权重(权值)的N个(N是大于等于1的自然数)滤波器作为初始值。此外,取得部11也可以取得由分割部12分割处理得到的多个滤波器和/或由合并部13合并处理得到的多个滤波器作为初始值。
另外,取得部11取得学习用图像群。在此,学习用图像群例如是MNIST数据集、GTSRB数据集等预先准备的多个图像的数据集。
[分割部12]
图3是用于说明图1所示的决定装置10所进行的分割处理的概要的图。图4是表示图1所示的分割部12所进行的分割处理的一例的图。此外,图3的(a)所示的多个滤波器与图2B所示的构成两个卷积层中一方的多个滤波器对应。另外,图4的(a)所示的分割前滤波器与图3的(a)所示的多个滤波器对应。
分割部12对取得部11取得的N个滤波器等作为初始值所取得的多个滤波器,进行分割处理。例如,分割部12对如图3的(a)所示的多个滤波器(图中为32个)进行分割处理,使其增加到图3的(b)所示的数量的滤波器(图中为96个)。
更具体而言,分割部12进行如下分割处理:通过追加针对作为初始值的N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使该N个滤波器增加到比N个多的M个(M是大于等于2的自然数)滤波器。
在此,分割部12也可以在该M个滤波器的辨识性能比上述N个滤波器的辨识性能高的情况下,进一步进行如下分割处理:通过追加针对该M个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使该M个滤波器增加到比M个多的P个(P是大于等于3的自然数)滤波器。另外,也可以反复进行这样的分割处理直到规定次数,所述规定次数是利用决定装置10的用户等预先确定的次数。另外,增加后的滤波器的数量也可以由使用决定装置10的使用者来决定。
另外,分割部12也可以在该M个滤波器的辨识性能在上述N个滤波器的辨识性能以下的情况下,再次进行对上述的N个滤波器的分割处理。
此外,在上面的叙述中,多个滤波器的辨识性能意味着具有该多个滤波器的卷积神经网络的辨识性能。以下也是同样的。
在本实施方式中,如图1所示,分割部12具备随机变换部121、滤波器追加部122以及辨识性能评价部123。
随机变换部121针对作为初始值而由取得部11取得的多个滤波器中的至少一个,实施在图像处理领域中所使用的变换。滤波器追加部122对作为初始值而由取得部11取得的、保存于未图示的存储器等的多个滤波器,追加通过随机变换部121实施了在图像处理领域中所使用的变换而得到的滤波器。
在此,关于随机变换部121所实施的变换,通过在图像处理领域从已知的图像变换(变换集)中选择出的变换来进行即可。例如,在随机变换部121实施的变换是随机决定的角度下的旋转变换的情况下,随机变换部121针对上述N个滤波器中的至少一个实施该旋转变换即可。而且,滤波器追加部122追加在随机变换部121中实施了该旋转变换而得到的滤波器即可。
另外,例如,在随机变换部121实施的变换是随机决定的标准偏差的高斯噪声的赋予的情况下,随机变换部121针对上述N个滤波器中的至少一个实施该高斯噪声的赋予即可。而且,滤波器追加部122追加在随机变换部121中实施了该高斯噪声的赋予而得到的滤波器即可。
另外,例如,在随机变换部121实施的变换包括进行变换以使得成为随机决定的对比度的对比度变换的情况下,随机变换部121针对上述N个滤波器中的至少一个实施该对比度变换即可。而且,滤波器追加部122追加在随机变换部121中实施了该对比度变换而得到的滤波器即可。
另外,例如,在随机变换部121实施的变换是进行变换以使得成为随机决定的尺度的尺度变换的情况下,随机变换部121针对上述N个滤波器中的至少一个实施该尺度变换即可。而且,滤波器追加部122追加在随机变换部121中实施了该尺度变换而得到的滤波器即可。
此外,该变换不限于包括随机决定的角度下的旋转变换、随机决定的标准偏差的高斯噪声的赋予、进行变换以使得成为随机决定的对比度的对比度变换、或者进行变换以使得成为随机决定的尺度的尺度变换的情况。例如,也可以是对比度反转变换和/或等长变换等,还可以包括它们(变换集)中的两个以上的组合。在选择了变换集中的、随机决定的角度下的旋转变换(随机旋转变换)和随机决定的标准偏差的高斯噪声的赋予(随机高斯噪声赋予)的情况下,可以期待对卷积神经网络的辨识性能的一贯的改善。以下,使用图4,对该情况的例子进行说明。
图4的(a)所示的分割前滤波器是取得部11所取得的作为初始值的多个滤波器,图4的(b)所示的滤波器是分割前滤波器中的一个滤波器。如图4的(c)所示,随机变换部121针对图4的(b)所示的滤波器,进行上述旋转变换(在图中记载为随机旋转变换)和上述高斯噪声的赋予(记载为随机高斯噪声赋予),生成旋转滤波器和模糊滤波器。如图4的(d)所示,滤波器追加部122将在随机变换部121中生成的旋转滤波器和模糊滤波器暂时地追加到作为初始值的多个滤波器中。后述的辨识性能评价部123评价对作为初始值的多个滤波器追加了旋转滤波器和模糊滤波器而得到的滤波器的辨识性能。而且,在比作为初始值的多个滤波器的辨识性能高的情况下,如图4的(e)所示,采用对作为初始值的多个滤波器追加了旋转滤波器和模糊滤波器而得到的滤波器,作为分割后滤波器,并结束分割部12的分割处理。此外,图4的(e)所示的分割后滤波器与图3的(b)所示的滤波器对应。
辨识性能评价部123使用学习用图像群,使因被追加的滤波器而增加了的滤波器学习权重,评价该增加了的滤波器的辨识性能。更具体而言,辨识性能评价部123使用学习用图像群,使因被追加的滤波器而在卷积层具有所增加的滤波器的卷积神经网络的滤波器学习权重,评价该增加了的滤波器的辨识性能。
辨识性能评价部123在评价出的该增加了的滤波器的辨识性能比作为初始值的由取得部11取得的多个滤波器的辨识性能高的情况下,采用该增加了的滤波器作为分割后滤波器。此外,辨识性能评价部123在评价出的该增加了的滤波器的辨识性能在作为初始值的由取得部11取得的多个滤波器的辨识性能以下的情况下,使随机变换部121再次对初始值的多个滤波器进行分割处理。
更具体而言,辨识性能评价部123使用学习用图像群,例如使从N个增加到M个后的M个滤波器学习权重,由此,评价M个滤波器的辨识性能。辨识性能评价部123在评价出的该M个滤波器的辨识性能比作为初始值的N个滤波器的辨识性能高的情况下,采用该M个滤波器作为分割后滤波器。另一方面,辨识性能评价部123在评价出的该M个滤波器的辨识性能在作为初始值的N个滤波器的辨识性能以下的情况下,使随机变换部121再次对作为初始值的N个滤波器进行分割处理。
此外,在本实施方式中,说明了分割部12将由取得部11取得的多个滤波器作为初始值来进行分割处理的情况,但不限于此。也可以将分割处理得到的分割后滤波器作为初始值再次进行分割处理,还可以将由合并部13输出的合并后的滤波器作为初始值来进行分割处理。
另外,在进行多次分割处理的情况下,辨识性能评价部123对通过分割处理增加了的滤波器的辨识性能、与并非初始值而是通过前一次分割处理增加了的滤波器的辨识性能进行比较即可。
[合并部13]
图5是用于说明图1所示的决定装置10所进行的合并处理的概要的图。图6是表示图1所示的合并部13所进行的合并处理的一例的图。此外,图6的(a)所示的多个滤波器(合并前滤波器)与图5的(a)所示的多个滤波器对应,图6的(d)所示的多个滤波器(合并后滤波器)与图5的(b)所示的多个滤波器对应。
合并部13针对取得部11取得的N个滤波器和/或分割处理得到的分割后的滤波器等作为初始值所取得的多个滤波器,进行合并处理。例如,合并部13针对如图5的(a)所示的多个滤波器(图中为156个)进行合并处理,使其减少到图5的(b)所示的数量的滤波器(图中为32个)。
更具体而言,合并部13进行如下合并处理:对在分割部12中分割处理得到的分割后滤波器进行聚类,选择簇中心的滤波器,由此,使该多个滤波器的数量减少。其原因在于,由此能够防止过学习,能够通过降低辨识时的错误率而更高精度地进行图像识别等来提高辨识性能。此外,合并部13进行合并处理的多个滤波器不限于在分割部12中分割处理得到的分割后滤波器,也可以是作为初始值而由取得部11取得的多个滤波器。
在本实施方式中,如图1所示,合并部13具备聚类部131以及滤波器选择部132。
聚类部131对在分割部12中分割处理得到的分割后滤波器即M个滤波器进行聚类。其结果,聚类部131将M个滤波器聚类成L个簇。
在此,聚类部131既可以使用k-means法将M个滤波器聚类成预先确定的L个簇,也可以使用近邻传播法对M个滤波器进行聚类,并根据其结果,聚类成L个簇。k-means法是指使用簇的平均作为数据的分布,分类为给定的簇数即K个的方法。另一方面,近邻传播法是由Frey等人于近年提出的聚类方法,无需预先确定簇数而是算法自动地决定簇数。另外,近邻传播法是交替地更新吸引度(responsibility)和归属度(availability)而使其收敛的方法,因此,没有初始值依赖性,聚类精度优于以k-means法等为代表的既有的聚类方法。此外,由于使用k-means法或者近邻传播法进行聚类的方法是既有的聚类方法,因此省略此处的详细说明。
滤波器选择部132选择被聚类部131聚类成L个簇的、保存于未图示的存储器等的M个滤波器中的、簇中心的滤波器。在此,例如,滤波器选择部132通过计算分别属于L个簇的多个滤波器的矢量重心,并选择最接近矢量重心的滤波器,来选择成为L个簇各自的簇中心的滤波器即可。这样,合并部13将在分割部12中分割处理得到的分割后滤波器即M个滤波器合并成比该M个少的L个(L是大于等于1的自然数)滤波器。
以下,使用图6,说明聚类部131使用k-means法进行聚类的情况的例子。此外,图6的(a)所示的合并前滤波器是图4的(e)所示的分割滤波器,是在分割部12中分割处理得到的分割后滤波器。另外,在图6的(b)中,示出了使用k-means法根据数据的分布来决定界线以使得形成预定的簇数由此进行聚类的情况的例子。
如图6的(b)所示,聚类部131使用k-means法,对如图6的(a)所示的合并前滤波器进行聚类以使得形成由使用决定装置10的使用者等预先确定的预定的簇数。而且,如图6的(c)所示,滤波器选择部132选择预定数量的簇各自的最接近簇中心的滤波器(图中表记为滤波器a),并采用作为合并后滤波器。
此外,聚类部131也可以对作为初始值而由取得部11取得的N个滤波器进行聚类。在该情况下,滤波器选择部132对由聚类部131聚类的、保存于未图示的存储器等的N个滤波器中的滤波器,按每个簇选择簇中心的滤波器。这样,合并部13能够将作为初始值而由取得部11取得的N个滤波器合并成数量比该N个少的滤波器。
另外,合并部13也可以还具备辨识性能评价部,其使用学习用图像群,使合并后滤波器学习权重,评价合并后滤波器的辨识性能。在该情况下,当由辨识性能评价部评价出的辨识性能在合并前滤波器的辨识性能以下的情况下,再次进行合并处理。合并部13在使用k-means法进行聚类的情况下,变更预定的簇数再次进行合并处理,在使用近邻传播法进行聚类的情况下,变更相似度矩阵的对角元素等算法中的参数再次进行合并处理即可。
[输出部15]
输出部15将由分割部12分割处理得到的滤波器或者由合并部13合并处理得到的滤波器,作为由决定装置10决定的构成卷积神经网络的滤波器进行输出。此外,输出部15并非必须的构成部分,也可以是存储器。在该情况下,将由分割部12分割处理得到的滤波器或者由合并部13合并处理得到的滤波器,作为由决定装置10决定的构成卷积神经网络的滤波器进行保存。
[决定装置10的决定处理]
接下来,使用附图,对如上构成的决定装置10的决定处理进行说明。
图7是表示本实施方式中的决定处理的一例的流程图。图8是表示图7所示的步骤S20的详细处理的一例的流程图。图9是表示图7所示的步骤S30的详细处理的一例的流程图。
首先,在步骤S10中,决定装置10进行取得处理。
更具体而言,在步骤S10之前,使用学习用图像群,学习了构成1个以上的卷积层的多个滤波器的权重,所述1个以上的卷积层构成卷积神经网络(S9)。决定装置10取得使用学习用图像群学习了权重的多个滤波器中的、至少构成一个卷积层的N个(N是大于等于1的自然数)滤波器作为初始值(S11)。
接下来,在步骤S20中,决定装置10进行分割处理。
更具体而言,针对在步骤S11中取得的初始值的N个滤波器中的至少一个,实施在图像处理领域中所使用的变换(S21),将实施了在图像处理领域中所使用的变换后的滤波器追加到初始值的N个滤波器中(S22)。由此,能够使初始值的N个滤波器增加到比N个多的M个(M是大于等于2的自然数)滤波器。在此,关于该变换,进行从上述的变换集中选择的变换即可,详细内容如上所述,因此省略此处的说明。接下来,决定装置10使用学习用图像群,使M个滤波器学习权重,由此评价M个滤波器的辨识性能,并判定是否比初始值的N个滤波器的辨识性能高(S23)。在步骤S23中,当M个滤波器的辨识性能在N个滤波器的辨识性能以下(S23:否)、并且分割次数在预先确定的次数(规定次数)以下的情况(S24:否)下,返回到步骤S21,再次进行分割处理。另一方面,在M个滤波器的辨识性能比N个滤波器的辨识性能高的情况(S24:是)下,结束分割处理。
此外,在反复进行分割处理直到预先确定的次数(规定次数)的情况下,在步骤S10中,取得进行分割处理得到的M个滤波器即分割后滤波器作为初始值的滤波器,再次进行步骤S20即可。
接下来,在步骤S30中,决定装置10进行合并处理。
更具体而言,决定装置10对作为初始值的滤波器的在步骤S20中分割处理得到的M个滤波器进行聚类(S31)。在此,决定装置10对在步骤S20中分割处理得到的M个滤波器进行聚类,其结果,簇数变为比M个少的L个(L是大于等于1的自然数)。接下来,决定装置10选择L个簇各自的簇中心的滤波器(S32)。这样,决定装置10将M个滤波器合并成比M个少的L个滤波器。
此外,步骤S20的分割处理和步骤S30的合并处理既可以分别单独地进行,也可以先进行步骤S30的合并处理再接着进行步骤S20的分割处理。另外,如上所述,也可以在反复进行步骤S20的分割处理直到预先确定的次数(规定次数)之后,再进行步骤S30的合并处理。
[决定处理的有效性]
接下来,列举实施例,对上述的决定装置10的决定处理的有效性进行说明。
(实施例1)
图10是表示实施例1中的决定装置10的决定处理的算法的详细的一例的图。
在图10中,用“//SPLIT”记述的算法是上述的分割处理的算法的一例,用“//SPLIT”记述的算法是上述的分割处理的算法的一例。另外,“δ0、δ1、δ2”表示辨识性能的评价值,“Kernel”表示构成卷积神经网络的至少一个卷积层的滤波器。
图11是表示实施例1中的决定装置10的决定处理的一例的图。即,示出了在本实施例中,先进行合并处理,之后进行分割处理的情况的例子。
更具体而言,实施例1中的决定装置10对作为初始值的150个滤波器进行合并处理,减少到32个滤波器,并在使用学习用图像群使其学习权重之后,对32个滤波器的辨识性能进行评价。此外,在本实施例的合并处理中,如图10所示那样使用k-means法来进行聚类。
而且,实施例1中的决定装置10对使用学习用图像群学习了权重的32个滤波器进行分割处理,增加到96个滤波器,并在使用学习用图像群使其学习权重之后,对32个滤波器的辨识性能进行评价。此外,在本实施例的分割处理中,如图10所示那样进行随机决定的角度下的旋转变换和随机决定的标准偏差的高斯噪声的赋予。
图12A~图12D是用于说明本实施例的合并处理的有效性的图。
图12A示出了测试用图像的一例,示出了显示有“120”的标识倾斜了30度左右的图像。另外,图12A所示的测试用图像是利用学习用图像学习了权重的、由具有作为初始值的滤波器的卷积神经网络误分类得到的图像。
图12B是表示图12A所示的测试用图像的softmax(柔性化最大值)概率的图。在图12B中,用softmax概率示出了具有作为初始值的滤波器的卷积神经网络的43个类(class)的输出的反应值。在进行类别(category)辨识的神经网络中,将输出概率的最大值作为识别结果进行输出。可知当具有作为初始值的滤波器的卷积神经网络对图12A所示的测试用图像(正确答案标签=7)进行分类(辨识)时,对类别“15”输出大的反应值,而进行了误分类。
图12C是表示通过具有图11所示的分割处理后的滤波器的卷积神经网络分类得到的、图12A所示的测试用图像的softmax概率的一例的图。由此可知,当具有分割处理后的滤波器的卷积神经网络对图12A所示的测试用图像进行分类(辨识)时,对于正确答案标签的反应值得到改善,无误分类地准确进行了分类。
图12D是表示通过具有图11所示的合并处理后的32个滤波器的卷积神经网络分类得到的、图12A所示的图像的softmax概率的一例的图。可知当具有合并处理后的32个滤波器的卷积神经网络对图12A所示的测试用图像进行分类(辨识)时,反应值得到比图12C更进一步的改善,无误分类地准确进行了分类。
(实施例2)
关于本公开的分割处理以及合并处理的有效性,使用由学习用图像以及测试用图像构成的多个数据集进行了验证,将该实验结果作为实施例2进行说明。
图13是表示实施例2中的在使用了多个数据集的各数据集的情况下的辨识性能的值的图。在图13中,示出了在使用了MNIST(Mixed National Institute of Standards andTechnology database,手写数字数据库,是NIST(美国国家标准与技术研究院数据库)的一个子集)数据集、GTSRB(German Traffic Sign Recognition Benchmark,德国交通标志识别标准)以及CIFAR-10(Canadian Institute for Advanced Research,加拿大高级研究所)数据集的情况下的辨识性能的值(基准值)。
[MNIST]
图14是表示使用MNIST数据集的模型构造(MNIST模型构造)的一例的图。MNIST数据集由尺寸为28×28的手写数字的60,000张学习用图像和10,000张测试用图像构成。如图14所示,MNIST模型构造通过由两层连接层和两层卷积层而成的卷积神经网络构成,在使用了ReLU激励函数的各卷积层之后具有池化层。在图13中,示出了作为在让使用MNIST数据集的学习用图像进行了学习的MNIST模型构造辨识MNIST数据集的测试用图像时的辨识性能的值(基准值)的错误率为0.82%。
图15是表示在对MNIST模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。在此,图15的SPLIT[1]表示对No.1的滤波器(ORIGINAL)进行了分割,MERGE[4]表示对No.4的滤波器SPLIT[1]进行了合并。在图15中,示出了在对构成MNIST模型构造的两层卷积层中的第1层卷积层的100个滤波器(ORIGINAL)进行分割处理而增加到200个滤波器,并使其使用学习用图像再次学习了权重的情况(SPLIT[1])下的错误率为0.58%。另外,示出了在进一步对分割处理得到的200个滤波器(SPLIT[1])进行合并处理而减少到100个滤波器,并使其使用学习用图像再次学习了权重的情况(MERGE[4])下的错误率为0.59%。
另一方面,作为比较例,示出了在并不对构成MNIST模型构造的第1层卷积层的100个滤波器进行分割处理,而使200个或者300个滤波器从初始状态进行了学习的情况下的错误率为0.78%或者0.75%。
可知相对于比较例和/或MNIST模型构造的错误率,在针对MNIST模型构造进行了本公开的分割处理或者合并处理的情况下的错误率提高了大致30%。此外,通过分割处理后的合并处理,错误率仅变差了0.01%,但大致维持了辨识性能。
[GTSRB]
GTSRB数据集由根据德国的标准道路标识而成的、各种各样的43类的39,209张学习用图像和12,630张测试用图像构成。此外,GTSRB数据集中所包含的图像的尺寸从15×15像素到250×250像素,是不均匀的,若原样地使用,则学习时的每1块中所包含的像素数会发生变动,影响识别。于是,在本实施例中,使用将GTSRB数据集的所有图像的尺寸变更为48×48,并应用了直方图平滑化(histogram smoothing)和/或对比度归一化(contrastnormalization)等预处理技术后的图像。以下,将应用了预处理技术后的GTSRB数据集记载为GTSRB数据集。
使用GTSRB数据集的模型构造(GTSRB1模型构造)是由三层卷积层和两层全连接层(fully connected layer)构成的卷积神经网络。在图13中,作为让使用GTSRB数据集的学习用图像进行了学习的GTSRB1模型构造辨识GTSRB数据集的测试用图像时的辨识性能的值(基准值),示出了错误率2.44%。
图16是表示在对GTSRB1模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。在此,图16的4N的“N”表示以高斯噪声的方式对滤波器进行了分割,5R的“R”表示以旋转变换的方式对滤波器进行了分割。MERGE[No.]、SPLIT[No.]的表记方法与上述是同样的。可知在所有针对GTSRB1模型构造进行了本公开的分割处理或者合并处理的实验中,要么实现了相当良好的性能,要么实现了与使模型尺寸变得相当小时同等的性能。
图17是表示对GTSRB1模型构造、和本公开的分割处理或者合并处理后的GTSRB1模型构造进行了最优化时的误差函数的输出值的图。在此,GTSRB1_original和GTSRB1_merge比较了同一参数数量的情况。如图17所示,可知与使GTSRB1模型构造使用GTSRB数据集的学习用图像进行了学习(最优化)时的误差函数的输出值相比,使本公开的分割处理或者合并处理后的GTSRB1模型构造使用GTSRB数据集的学习用图像进行了学习时的误差函数的输出值变低。也就是说,可知通过进行本公开的分割处理或者合并处理,能够简便地决定对图像识别有效的卷积神经网络的构造。
图18是表示使用GTSRB数据集的模型构造(GTSRB-3DNN模型构造)的一例的图。
GTSRB-3DNN模型构造是由三层卷积层和两层全连接层构成的卷积神经网络,输入并使用48×48像素、38×48像素以及28×48像素的不同的图像尺寸。因此,GTSRB-3DNN模型构造与作为单纯的模型构造的GTSRB-3DNN模型构造相比,成为集成的模型构造。在图13中,作为让使用GTSRB数据集的学习用图像进行了学习的GTSRB-3DNN模型构造辨识GTSRB数据集的测试用图像时的辨识性能的值(基准值),示出了错误率1.24%。
图19是表示在对GTSRB-3DNN模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。可知在所有针对GTSRB-3DNN模型构造进行了本公开的分割处理或者合并处理的实验中,要么实现了相当良好的性能,要么实现了与使模型尺寸变得相当小时同等的性能。
[CIFAR-10]
CIFAR-10数据集由10个类别的50,000张学习用图像和10,000张测试用图像构成。
使用CIFAR-10数据集的模型构造(CIFAR-10模型构造)利用非专利文献1所公开的由三层卷积层构成的卷积神经网络。在图13中,作为让使用CIFAR-10数据集的学习用图像进行了学习的CIFAR-10模型构造辨识CIFAR-10数据集的测试用图像时的辨识性能的值(基准值),示出了错误率10.4%。
图20是表示在对CIFAR-10模型构造进行了本公开的分割处理或者合并处理的情况下的错误率的图。
如图20所示,可知在所有针对CIFAR-10模型构造的构成卷积层的滤波器(ORIGINAL)进行了本公开的分割处理或者合并处理的实验中,要么改善了性能,要么实现了同等的性能。也就是说,可知即使对如非专利文献1所公开的复杂且被高度地调整后的卷积神经网络的构造应用本公开的分割处理或者合并处理,也是有效的。
(实施例3)
关于本公开的合并处理的有效性,从辨识计算时间的观点,也进行了验证,将该实验结果作为实施例3进行说明。
图21是表示在进行了本公开的合并处理的情况下的辨识计算时间的比较的图。
在图21所示的第1行,示出了使用通过GTSRB数据集的学习用图像进行学习后的GTSRB1模型构造(ORIGINAL),辨识10个48×48像素的图像时的计算时间为14.8MS。另一方面,在图21所示的第2行或者第3行,示出了使用对GTSRB1模型构造进行1次或者2次合并处理并通过GTSRB数据集的学习用图像进行学习而得到的模型构造(MERGE[1]或者MERGE[2]),辨识10个48×48像素的图像时的计算时间为14.1MS或者12.6MS。
另外,在图21所示的第4行,示出了使用通过GTSRB数据集的学习用图像进行学习后的GTSRB-3DNN模型构造(ORIGINAL),辨识10个48×48像素的图像时的计算时间为27.9MS。另一方面,在图21所示的第5行,示出了使用对GTSRB-3DNN模型构造进行本公开的合并处理并通过GTSRB数据集的学习用图像进行学习而得到的模型构造(MERGE[4]),辨识10个48×48像素的图像时的速度为19.4MS。
由此,可知在所有进行了本公开的合并处理的实验中,改善了辨识计算时间。
[效果等]
如上所述,根据本实施方式中的决定装置10及其决定方法,能够更简便地(或者自动地)决定卷积神经网络的构造。更具体而言,根据本实施方式中的决定装置10及其决定方法,通过将构成利用深度学习而学习了的卷积神经网络的至少一个卷积层的滤波器作为初始值,反复进行分割处理和合并处理,能够简便地或者自动地决定对图像识别有效的卷积神经网络的构造。
在此,分割处理是对有效的滤波器进行变换而增加可能对图像识别有效的滤波器的处理,合并处理是以聚类的方式合并冗余的滤波器而仅保留有效的滤波器的处理。关于在分割处理中利用的变换,在图像处理领域从已知的图像变换(变换集)中选择即可。由于能够期待一贯的改善,所以可以选择随机决定的角度下的旋转变换和随机决定的标准偏差的高斯噪声的赋予来用于变换。关于在合并处理中利用的聚类方法,也只要利用k-means法或者近邻传播法等已知的聚类方法即可。
由此,即使是专家以外的人员,只要利用本实施方式中的决定装置10及其决定方法,也能够获得并利用对图像识别有效的卷积神经网络的构造。
此外,说明了本实施方式中的决定装置10等进行分割处理和决定处理的情况,但也可以为进行至少一方。另外,进行分割处理和决定处理的顺序和/或次数也不限定于上述的例子,也可以由决定装置10的使用者自由地决定。
另外,本实施方式中的决定装置10等也可以对作为初始值的、在构成卷积神经网络的卷积层有多个的情况下至少构成一个卷积层的多个滤波器,进行分割处理以及决定处理的至少一方。另外,也可以在对构成该一个卷积层的多个滤波器进行分割处理以及决定处理的至少一方之后,对构成与该一个卷积层不同的卷积层的多个滤波器,进行分割处理以及决定处理的至少一方。也就是说,本实施方式中的决定装置10等也可以对作为初始值的卷积神经网络的滤波器的一部分或者全部,进行分割处理以及决定处理的至少一方。
以上,在实施方式中对本公开的决定方法进行了说明,但是,关于实施各处理的主体和/或装置,没有特别限定。也可以通过组装在本地所配置的特定的装置内的处理器等(以下进行说明)来处理。另外,也可以通过配置于与本地的装置不同的场所的云服务器等来处理。
此外,本公开还包括如下的情况。
(1)上述的装置具体而言是由微处理器、ROM、RAM、硬盘单元、显示单元、键盘、鼠标等构成的计算机系统。所述RAM或者硬盘单元中存储有计算机程序。通过所述微处理器按照所述计算机程序工作,各装置实现其功能。在此,计算机程序是为了实现预定的功能而组合多个表示对计算机的指令的命令码所构成的。
(2)构成上述的装置的构成要素的一部分或全部可以由一个系统LSI(LargeScale Integration:大规模集成电路)构成。系统LSI是在一个芯片上集成多个构成部而制造出的超多功能LSI,具体而言,是构成为包括微处理器、ROM、RAM等的计算机系统。所述RAM中存储有计算机程序。通过所述微处理器按照所述计算机程序工作,系统LSI实现其功能。
(3)构成上述的装置的构成要素的一部分或全部可以由能够相对于各装置拆装的IC卡或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块可以包括上述的超多功能LSI。通过微处理器按照计算机程序工作,所述IC卡或所述模块实现其功能。该IC卡或该模块可以具有防篡改性能。
(4)本公开也可以是如上所示的方法。另外,既可以是通过计算机实现这些方法的计算机程序,也可以是通过所述计算机程序形成的数字信号。
(5)另外,本公开也可以将所述计算机程序或所述数字信号记录于计算机可读取的记录介质,例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等。另外,也可以是记录在这些记录介质中的所述数字信号。
另外,本公开也可以将所述计算机程序或所述数字信号经由电通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等进行传输。
另外,本公开也可以是具备微处理器和存储器的计算机系统,所述存储器存储有上述计算机程序,所述微处理器按照所述计算机程序进行工作。
另外,通过将所述程序或所述数字信号记录在所述记录介质中移送,或者经由所述网络等将所述程序或所述数字信号进行移送,可以通过独立的其他的计算机系统来实施。
(6)也可以分别组合上述实施方式以及上述变形例。
产业上的可利用性
本公开能够利用于用于决定对识别有效的卷积神经网络的构造的决定装置以及决定方法,尤其能够利用于用于决定对图像识别有效且在计算能力不如个人电脑系统的内置系统中也能够执行的卷积神经网络的构造的决定装置以及决定方法。
标号说明
10:决定装置 11:取得部 12:分割部
13:合并部 15:输出部 121:随机变换部
122:滤波器追加部 123:辨识性能评价部
131:聚类(clustering)部 132:滤波器选择部

Claims (8)

1.一种决定方法,用于决定卷积神经网络的构造,包括:
取得步骤,取得使用学习用图像群学习了权重的N个滤波器作为初始值,其中,N是大于等于1的自然数;以及
分割步骤,通过追加针对所述N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使所述N个滤波器增加到比所述N个多的M个滤波器,其中,M是大于等于2的自然数;
合并步骤,通过对所述M个滤波器进行聚类并选择簇中心的滤波器,将所述M个滤波器合并成比所述M个少的L个滤波器,其中,L是大于等于1的自然数,
在所述分割步骤中,
包括分割评价步骤,在该分割评价步骤中,使用所述学习用图像群,使所述M个滤波器学习权重,由此,评价所述M个滤波器的辨识性能,
当在所述分割评价步骤中评价出的辨识性能在所述N个滤波器的辨识性能以下的情况下,再次进行所述分割步骤;
在所述合并步骤中,
包括合并评价步骤,在该合并评价步骤中,使用所述学习用图像群,使所述L个滤波器学习权重,由此,评价所述L个滤波器的辨识性能,
当在所述合并评价步骤中评价出的辨识性能在所述M个滤波器的辨识性能以下的情况下,再次进行所述合并步骤。
2.根据权利要求1所述的决定方法,
在所述合并步骤中,使用k-means法将所述M个滤波器聚类成预先确定的L个簇。
3.根据权利要求1所述的决定方法
在所述合并步骤中,使用近邻传播法对所述M个滤波器进行聚类。
4.根据权利要求1至3中任一项所述的决定方法,
所述变换包括随机决定的角度下的旋转变换,
在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述旋转变换后的滤波器。
5.根据权利要求1至3中任一项所述的决定方法,
所述变换包括随机决定的标准偏差的高斯噪声的赋予,
在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述高斯噪声的赋予后的滤波器。
6.根据权利要求1至3中任一项所述的决定方法,
所述变换包括进行变换以使得成为随机决定的对比度的对比度变换,
在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述对比度变换后的滤波器。
7.根据权利要求1至3中任一项所述的决定方法,
所述变换包括进行变换以使得成为随机决定的尺度的尺度变换,
在所述分割步骤中,追加针对所述N个滤波器中的至少一个实施了所述尺度变换后的滤波器。
8.一种记录介质,记录有程序,所述程序用于使计算机执行卷积神经网络的构造的决定,包括:
取得步骤,取得使用学习用图像群学习了权重的N个滤波器作为初始值,其中,N是大于等于1的自然数;以及
分割步骤,通过追加针对所述N个滤波器中的至少一个实施了在图像处理领域中所使用的变换后的滤波器,使所述N个滤波器增加到比所述N个多的M个滤波器,其中,M是大于等于2的自然数;
合并步骤,通过对所述M个滤波器进行聚类并选择簇中心的滤波器,将所述M个滤波器合并成比所述M个少的L个滤波器,其中,L是大于等于1的自然数,
在所述分割步骤中,
包括分割评价步骤,在该分割评价步骤中,使用所述学习用图像群,使所述M个滤波器学习权重,由此,评价所述M个滤波器的辨识性能,
当在所述分割评价步骤中评价出的辨识性能在所述N个滤波器的辨识性能以下的情况下,再次进行所述分割步骤;
在所述合并步骤中,
包括合并评价步骤,在该合并评价步骤中,使用所述学习用图像群,使所述L个滤波器学习权重,由此,评价所述L个滤波器的辨识性能,
当在所述合并评价步骤中评价出的辨识性能在所述M个滤波器的辨识性能以下的情况下,再次进行所述合并步骤。
CN201680002592.8A 2015-02-06 2016-01-29 决定方法以及记录介质 Active CN107077734B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562113174P 2015-02-06 2015-02-06
US62/113,174 2015-02-06
JP2016-006580 2016-01-15
JP2016006580A JP2016146174A (ja) 2015-02-06 2016-01-15 決定方法およびプログラム
PCT/JP2016/000462 WO2016125476A1 (ja) 2015-02-06 2016-01-29 決定方法およびプログラム

Publications (2)

Publication Number Publication Date
CN107077734A CN107077734A (zh) 2017-08-18
CN107077734B true CN107077734B (zh) 2020-12-08

Family

ID=56686418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680002592.8A Active CN107077734B (zh) 2015-02-06 2016-01-29 决定方法以及记录介质

Country Status (4)

Country Link
US (1) US10558885B2 (zh)
EP (1) EP3255606B1 (zh)
JP (1) JP2016146174A (zh)
CN (1) CN107077734B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CL2016002047A1 (es) * 2016-08-12 2017-03-17 Oculus Machina S P A Un método para realizar la detección de elementos mediante una segmentación dentro de en una secuencia ordenada de datos digitales.
US11017269B2 (en) * 2016-09-30 2021-05-25 General Electric Company System and method for optimization of deep learning architecture
US10032256B1 (en) * 2016-11-18 2018-07-24 The Florida State University Research Foundation, Inc. System and method for image processing using automatically estimated tuning parameters
JP2018105659A (ja) * 2016-12-23 2018-07-05 国立研究開発法人理化学研究所 識別装置、識別システム、学習装置、学習方法、識別プログラム、学習プログラム、記録媒体、及び集積回路
WO2018189619A1 (ja) * 2017-04-10 2018-10-18 株式会社半導体エネルギー研究所 半導体装置、電子部品、及び電子機器
JP7043742B2 (ja) * 2017-05-22 2022-03-30 コニカミノルタ株式会社 学習モデル作成装置
JP7091031B2 (ja) * 2017-07-27 2022-06-27 サムスン エレクトロニクス カンパニー リミテッド 撮像装置
WO2019030895A1 (ja) 2017-08-10 2019-02-14 三菱電機株式会社 識別分類装置および識別分類方法
CN108038543B (zh) * 2017-10-24 2021-01-22 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN108124487B (zh) * 2017-12-22 2023-04-04 达闼机器人股份有限公司 云端抄表方法及装置
WO2019146398A1 (ja) * 2018-01-23 2019-08-01 ソニー株式会社 ニューラルネットワーク処理装置および方法、並びにプログラム
JP6554193B1 (ja) 2018-01-30 2019-07-31 三菱電機インフォメーションシステムズ株式会社 記入領域抽出装置および記入領域抽出プログラム
WO2019159324A1 (ja) * 2018-02-16 2019-08-22 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
JP7081953B2 (ja) * 2018-03-28 2022-06-07 株式会社日立システムズ アラート通知装置およびアラート通知方法
CN110717929A (zh) * 2018-07-11 2020-01-21 腾讯科技(深圳)有限公司 图像目标检测方法、装置及存储介质
KR102476239B1 (ko) 2018-07-17 2022-12-12 삼성전자주식회사 전자 장치, 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
US10430708B1 (en) * 2018-08-17 2019-10-01 Aivitae LLC System and method for noise-based training of a prediction model
JP7404111B2 (ja) 2020-03-10 2023-12-25 株式会社東芝 プロセッサ性能測定装置
US20220121953A1 (en) * 2020-10-21 2022-04-21 Nec Laboratories America, Inc. Multi-task learning via gradient split for rich human analysis
JP7494940B2 (ja) 2020-11-30 2024-06-04 日本電信電話株式会社 統合装置、統合方法、及び統合プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077613A (zh) * 2014-07-16 2014-10-01 电子科技大学 一种基于级联多级卷积神经网络的人群密度估计方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2533942B2 (ja) * 1989-03-13 1996-09-11 株式会社日立製作所 知識抽出方法およびプロセス運転支援システム
JP3897654B2 (ja) * 2002-07-17 2007-03-28 キヤノン株式会社 音声合成方法および装置
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
US7386165B2 (en) * 2004-02-06 2008-06-10 Siemens Medical Solutions Usa, Inc. System and method for a sparse kernel expansion for a Bayes classifier
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
JP2007052456A (ja) * 2006-10-27 2007-03-01 Canon Inc 音声合成用辞書生成方法及び装置
US8527445B2 (en) * 2010-12-02 2013-09-03 Pukoa Scientific, Llc Apparatus, system, and method for object detection and identification
US9075824B2 (en) * 2012-04-27 2015-07-07 Xerox Corporation Retrieval system and method leveraging category-level labels
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US9330171B1 (en) * 2013-10-17 2016-05-03 Google Inc. Video annotation using deep network architectures
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9619755B2 (en) * 2013-10-23 2017-04-11 Mitsubishi Electric Research Laboratories, Inc. Method for estimating parameters of a graph spectral filter using training data
KR20160083127A (ko) * 2013-11-30 2016-07-11 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지 인식 방법 및 시스템
US9400955B2 (en) * 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
EP3149611A4 (en) * 2014-05-27 2017-08-09 Beijing Kuangshi Technology Co., Ltd. Learning deep face representation
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
KR102276339B1 (ko) * 2014-12-09 2021-07-12 삼성전자주식회사 Cnn의 근사화를 위한 학습 장치 및 방법
US10346726B2 (en) * 2014-12-15 2019-07-09 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
JP6324338B2 (ja) * 2015-03-25 2018-05-16 株式会社日立ハイテクノロジーズ 細胞診断支援装置、細胞診断支援方法、遠隔診断支援システム、及びサービス提供システム
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
US10248874B2 (en) * 2016-11-22 2019-04-02 Ford Global Technologies, Llc Brake light detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077613A (zh) * 2014-07-16 2014-10-01 电子科技大学 一种基于级联多级卷积神经网络的人群密度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation;Emily Denton等;《arXiv.org》;20140430;第1-4节 *
Scale-Invariant Convolutional Neural Network;Yichong Xu等;《arxiv.org》;20141124;摘要,图1,第2-3节 *
Yichong Xu等.Scale-Invariant Convolutional Neural Network.《arxiv.org》.2014, *

Also Published As

Publication number Publication date
EP3255606A1 (en) 2017-12-13
JP2016146174A (ja) 2016-08-12
US10558885B2 (en) 2020-02-11
EP3255606B1 (en) 2020-10-07
EP3255606A4 (en) 2018-03-07
CN107077734A (zh) 2017-08-18
US20170220891A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
CN107077734B (zh) 决定方法以及记录介质
CN110837836A (zh) 基于最大化置信度的半监督语义分割方法
CN113785305B (zh) 一种检测倾斜文字的方法、装置及设备
US8611618B2 (en) Apparatus and method for generating representative fingerprint template
US11430255B2 (en) Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network
JP6945253B2 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
CN116250020A (zh) 使用潜在邻域图检测对抗性示例
CN111694954B (zh) 图像分类方法、装置和电子设备
Alvi et al. A composite spatio-temporal modeling approach for age invariant face recognition
Gona et al. Transfer learning convolutional neural network with modified Lion optimization for multimodal biometric system
JP2023541450A (ja) 画像を分類し、分類のロバストネスにアクセスするための装置及び方法
CN111340057A (zh) 一种分类模型训练的方法及装置
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
WO2016125476A1 (ja) 決定方法およびプログラム
KR101066343B1 (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체
Gona et al. Multimodal biometric reorganization system using deep learning convolutional neural network
US8755594B2 (en) Information processing device and method, and program
CN112070116A (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
CN114373218B (zh) 一种用于检测活体对象的卷积网络的生成方法
JP7283523B2 (ja) 照合処理装置、照合処理方法、及び、照合処理プログラム
Johnson et al. Multimodal biometric identification based on overlapped fingerprints, palm prints, and finger knuckles using BM-KMA and CS-RBFNN techniques in forensic applications
Ali et al. A deep convolutional neural wavelet network for classification of medical images
Kumar et al. Multimodal Biometric Human Recognition System—A Convolution Neural Network based Approach
CN114373077A (zh) 一种基于双层次结构的草图识别方法
Chakrapani et al. Implementation of Fractal Image Compression Employing Hybrid Genetic-Neural Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant