CN106485192B - 用于图像识别的神经网络的训练方法和装置 - Google Patents
用于图像识别的神经网络的训练方法和装置 Download PDFInfo
- Publication number
- CN106485192B CN106485192B CN201510556368.0A CN201510556368A CN106485192B CN 106485192 B CN106485192 B CN 106485192B CN 201510556368 A CN201510556368 A CN 201510556368A CN 106485192 B CN106485192 B CN 106485192B
- Authority
- CN
- China
- Prior art keywords
- training
- dimensional space
- neural network
- matrix
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 108
- 238000009499 grossing Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 11
- 238000009827 uniform distribution Methods 0.000 claims description 7
- 230000003094 perturbing effect Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 21
- 238000010606 normalization Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及用于图像识别的神经网络的训练方法和装置。该方法包括:将样本图像表示为高维空间中的点集,高维空间的大小为样本图像的空间域的大小×样本图像的强度域的大小;生成大小与高维空间的大小相同的第一随机扰动矩阵;对第一随机扰动矩阵进行平滑;用平滑后的第一随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集;以及将扰动后的点集作为新的样本来训练神经网络。根据本发明,改进了传统的卷积神经网络的分类性能,产生更多的训练样本,减轻过拟合的影响,增强了卷积神经网络的泛化性能。
Description
技术领域
本发明涉及字符识别领域,更具体地涉及一种用于图像识别的神经网络的训练方法和装置。
背景技术
目前,在手写字符识别领域,基于卷积神经网络(CNN)的方法超过了传统的识别方法,取得了最好的性能。传统的神经网络结构如图1所示,其识别过程为(以手写数字6为例):输入一幅图像(样本),经过多次重复的卷积、空间最大采样和全连接操作后,CNN输出在每种数字上的置信度,置信度最高的就是识别结果。传统的CNN模型中,每一种操作用一个层来表示。比如,卷积操作对应卷积层,空间最大采样操作对应池化(pooling)层,全连接操作对应全连接层。卷积层和池化层的输出是若干个二维的矩阵,称作特征图(featuremap)。在图1中,每一个方块代表一个特征图。
近年来,许多公开的实验证据表明,CNN的层数越多,每一层的神经元的个数越多,CNN的性能越好。然而,CNN的模型越大就越难训练。主要的困难表现在以下两点:
a)模型越大,其参数越多,需要的训练样本越多。
b)模型越大,越容易过拟合。
对于以上两种困难,在给定训练集的情况下,传统的解决方案为:
a)对训练集样本进行随机扰动,生成更多的训练样本;
b)在训练过程中对模型进行随机扰动,增强模型的泛化性能,这种方法称为正则化方法。
期望能够提供一种将以上两个问题统一到一个框架内解决的、更有效的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种用于图像识别的神经网络的训练方法,包括:将样本图像表示为高维空间中的点集,高维空间的大小为样本图像的空间域的大小×样本图像的强度域的大小;生成大小与高维空间的大小相同的第一随机扰动矩阵;对第一随机扰动矩阵进行平滑;用平滑后的第一随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集;以及将扰动后的点集作为新的样本来训练神经网络。
根据本发明的一个方面,提供一种用于图像识别的神经网络的训练方法,包括:对样本图像进行变换得到样本图像的变换域表示;将变换后的样本图像表示为高维空间中的点集;生成大小与高维空间的大小相同的随机扰动矩阵;对随机扰动矩阵进行平滑;用平滑后的随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集;将扰动后的点集投影到高维空间的变换域子空间得到扰动后的样本图像的变换域表示;对扰动后的样本图像的变换域表示进行逆变换得到扰动后的图像;以及将扰动后的图像作为新的样本来训练神经网络。
根据本发明的又一个方面,提供一种用于图像识别的神经网络的训练装置,包括:高维空间表示单元,被配置为将样本图像表示为高维空间中的点集,高维空间的大小为样本图像的空间域的大小×样本图像的强度域的大小;第一随机扰动矩阵生成单元,被配置为生成大小与高维空间的大小相同的第一随机扰动矩阵;第一平滑单元,被配置为对第一随机扰动矩阵进行平滑;第一扰动单元,被配置为用平滑后的第一随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集;以及训练样本确定单元,被配置为将扰动后的点集作为新的样本来训练神经网络。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了传统的神经网络结构;
图2示出了根据本发明的一个实施例的用于图像识别的神经网络的训练方法200的示例性过程的流程图;
图3示出了根据本发明的另一个实施例的用于图像识别的神经网络的训练方法300的示例性过程的流程图;
图4示出了根据本发明的另一个实施例的用于图像识别的神经网络的训练方法400的示例性过程的流程图;
图5示出了3通道图像转换为频率域表示的示意图;
图6示出了3通道图像的DFT逆变换过程的示意图;
图7是示出根据本发明的一个实施例的用于图像识别的神经网络的训练装置700的示例性配置的框图;
图8是示出根据本发明的另一个实施例的用于图像识别的神经网络的训练装置800的示例性配置的框图;
图9是示出根据本发明的另一个实施例的用于图像识别的神经网络的训练装置900的示例性配置的框图;以及
图10是示出可以用于实施本发明的用于图像识别的神经网络的训练方法和装置的计算设备的示例性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明提出了一种用于图像识别的神经网络的训练方法和装置。其可以为卷积神经网络(CNN)提供更多的训练样本,同时可以避免过拟合的问题。
在本发明的方法中,将背景技术中所提到的两个问题:a)模型越大,其参数越多,需要的训练样本越多以及b)模型越大,越容易过拟合统一到一个框架内解决,与传统的方法进行比较,本发明的优势如下:
(1)采用更加普适的样本生成方法,使得生成的样本覆盖范围更广;
(2)采用新的正则化方法,比传统的方法能更好地解决过拟合的问题。
下面结合附图详细说明根据本发明的实施例的用于图像识别的神经网络的训练方法和装置。下文中的描述按如下顺序进行:
1.用于图像识别的神经网络的训练方法
2.用于图像识别的神经网络的训练装置
3.用以实施本申请的方法和装置的计算设备
[1.用于图像识别的神经网络的训练方法]
在本发明的方法中,通过对训练集的样本采用随机变形的方法,即对训练集的样本进行随机扰动,来达到扩充训练集的目的。
随机变形所处理的对象是一个大小为W*H的二维图像,其中W为图像的宽度,H为图像的高度(如图1所示的CNN模型的输入)。根据图像类型的不同,图像可以有不同的通道数(通道数也可以称为强度域的维度)。如:灰度图像的通道数为1,彩色图像的通道数为3。可以用D1*D2*…*Dn来表示图像强度域空间的大小,其中n为通道数,D1,D2,…,Dn为各通道强度的取值范围。对于灰度图像来说;强度域的大小为255,对于彩色图像来说,强度域的大小为255*255*255。这里,将样本图像看成是二维空间W*H的点集:点(w,h)处的像素值为(d1,d2,…,dn)。在本发明的方法中,将样本图像的每个像素表示为高维空间W*H*D1*D2*…*Dn中的点:点(w,h)处对应的点为(w,h,d1,d2,…,dn)。要想对原图像进行随机扰动,只需要将点集中所有的点加一个微扰即可,如下式(1)。
(w′,h′,d1′,d′2,…,d′n)=(w,h,d1,d2,...dn)+(Δw,Δh,Δd1,Δd2,...Δdn)(1)
其中,(Δw,Δh,Δd1,Δd2,...Δdn)为该点的随机微扰。
根据上述思路,图2示出了根据本发明的一个实施例的用于图像识别的神经网络的训练方法200的示例性过程的流程图。
首先,在步骤S202中,将样本图像I表示为高维空间中的点集P,高维空间的大小为样本图像的空间域的大小×样本图像的强度域的大小,即W*H*D1*D2*…*Dn。
接着,在步骤S204中,生成大小与高维空间P的大小相同的随机扰动矩阵M。即,M的大小也为W*H*D1*D2*…*Dn。
在一个示例中,通过给定概率分布来生成随机扰动矩阵M。该给定概率分布可以为高斯分布、均匀分布或者其他的连续分布。
在步骤S206中,对随机扰动矩阵M进行平滑。
具体地,用n+2维(即,维度与随机扰动矩阵M的维度相同)的低通滤波器对随机扰动矩阵M进行滤波,生成矩阵M’,其中,低通滤波器可以为高斯滤波器、均值滤波器、中值滤波器等等。
在步骤S208中,用平滑后的随机扰动矩阵M’对点集P进行扰动得到扰动后的点集P’。
在一个示例中,可以利用上式(1)对点集P进行扰动。
最后,在步骤S210中,可以将扰动后的点集作为新的样本来训练神经网络。
在一个示例中,在步骤S210还具体包括:将扰动后的点集P’投影到高维空间的二维或三维子空间中得到投影后的图像I’,然后将投影后的图像I’作为新的样本来训练神经网络。
在根据本发明的另一个实施例中,把上述随机变形的方法用到在神经网络训练过程中卷积层输出的特征图上,就得到了本发明提出的正则化方法。一个特征图在数学上可以表示为一个二维的矩阵。一般情况下,卷积层输出多个同等大小的特征图。本发明将这些特征图表示成一个三维的矩阵F,其大小为W*H*N,其中,W和H表示该特征图的宽和高,N表示特征图的个数。根据本发明的正则化方法的基本思想是:在训练过程中,在卷积层输出的特征图上添加一些随机噪声,从而迫使CNN模型在带噪声的数据里学习有用的知识,增强CNN模型的泛化性能。
图3示出了示出了根据本发明的另一个实施例的用于图像识别的神经网络的训练方法300的示例性过程的流程图。
图3中的训练方法300的步骤S302至S310与图2中的训练方法200的步骤S202至S210类似,在此不再赘述。
图3所示的训练方法还包括以下步骤S312至S316。
在步骤S312中,生成一个大小为W*H*N的随机扰动矩阵L。
在一个示例中,通过给定概率分布来生成随机扰动矩阵L。该给定概率分布可以为高斯分布、均匀分布或者其他的连续分布。
在步骤S314中,用3维的低通滤波器对随机矩阵L进行滤波,生成矩阵L’。
其中,低通滤波器可以为高斯滤波器、均值滤波器、中值滤波器等等。
在步骤S316在,用平滑后的随机矩阵L’对特征图F进行扰动,得到扰动的特征图F’。
一般来说,通过向特征图的值加上经加权的随机扰动矩阵的相应值来对特征图进行扰动,其中,特征图的绝对值越大,则加权系数越大。
在一个示例中,可以按照以下公式对特征图F进行扰动。
F′(w,h,n)=F(w,h,n)+η·|F(w,h,n)|·R(w,h,n) (2)
在图3的训练方法300中,通过步骤S312至S316,可以在卷积层输出的特征图上添加一些随机噪声,从而迫使CNN模型在带噪声的数据里学习有用的知识,增强CNN模型的泛化性能。
在根据本发明的另一个实施例的用于图像识别的神经网络的训练方法中,可以在以上方法的基础上,将原图像变换到频率域中,在频率域使用同样的方法对图像进行扰动,最后再将图像从频率域变换回空间域。图4示出了示出了根据本发明的另一个实施例的用于图像识别的神经网络的训练方法400的示例性过程的流程图。
训练方法400包括:步骤S402,对样本图像进行变换得到样本图像的变换域表示;步骤S404,将变换后的样本图像表示为高维空间中的点集;步骤S406,生成大小与高维空间的大小相同的随机扰动矩阵;步骤S408,对随机扰动矩阵进行平滑;步骤S410,用平滑后的随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集;步骤S412,将扰动后的点集投影到高维空间的变换域子空间得到扰动后的样本图像的变换域表示;步骤S414,对扰动后的样本图像的变换域表示进行逆变换得到扰动后的图像;以及步骤S416,将扰动后的图像作为新的样本来训练神经网络。
可以看到步骤S404、S406、S408、S410与图2中的训练方法200的步骤S202、S204、S206和S208分别类似,在此不再赘述。
在此,主要说明步骤S402、S412和S414。
首先对步骤S402(对样本图像进行变换得到样本图像的变换域表示)进行详细说明。
在说明书中以将原图像变换到频率域为例进行说明。将原图像变换到频率域表示可以用离散傅里叶变换(DFT)或者离散余弦变换(DCT)。这里以DFT为例进行说明,DCT的步骤和DFT的步骤一样。由于DFT通常作用在二维图像上,对于单通道的图像,可以直接由DFT得到频谱图;对于多通道图像,可以对每个通道分别进行DFT得到各个通道的频谱图,然后将各通道的频谱图合并。为了将频谱图表示为离散型多维空间的点集,这里对各通道的频谱图进行归一化。
图5示出了3通道图像转换为频率域表示的过程。首先将原图像按通道拆分为3个单通道图像,然后对每一个通道图像分别进行DFT,得到对应的频谱图,然后对每一通道的频谱图执行归一化操作,最后将归一化后的频谱图按通道合并到一起,组成原图像对应的频谱图。为了表示方便,在图5中将原图像及其频谱图像按通道错开。
每一通道的频谱图的归一化过程如下:
1)对频谱图每一像素点的值d执行如下的对数变换:
d′=log(1+d) (2)
2)将变换后频谱图所有像素点的值按线性变换到[0,MAX],并取其最接近的整数,其中MAX为给定的正整数。
按照图5所示得到频谱图之后,就可以把该频谱图看作高维空间中的一点。具体方法和图2中的随机变形方法一样。
接下来,将详细说明步骤S412,将扰动后的点集投影到高维空间的变换域子空间得到扰动后的变换域表示以及步骤S414,对扰动后的变换域表示进行逆变换得到扰动后的图像。
步骤S412和步骤S414所示的过程为步骤S402和S404所示的过程的逆操作。在步骤S412中,将扰动后的点集投影到子空间,得到扰动后的图像的变换域表示。在将原图形变换到频率域的情况下,该子空间固定为频率域。
下面结合图6说明步骤S414。图6示出了3通道图像的DFT逆变换过程。
1)将变形后的多通道的频谱图拆分为单通道的频谱图;
2)将每一个单通道频谱图进行反归一化,得到反归一化后的频谱图;
3)将上述步骤2)得到的结果进行DFT逆变换,得到单通道的空域图像;
4)将所有单通道的空域图像按通道合并到一起,得到随机扰动后的图像。
注意,图5和图6中具有相同纹理的矩形并不表示特性相同的图像,图6中纹理的安排仅仅为了突出图6所示的过程为图5所示的过程的逆过程。
其中,反归一化操作为上面结合图5所述的归一化操作的逆过程,具体步骤如下:
1)将单通道频谱图像上每一点的值按照函数y=h(x)进行映射。设归一化操作的线性变换函数为y=f(x),则h(x)=f-1(x);
2)将映射后的结果按照如下式子进行变换:d′=ed-1,得到反归一化的结果。
最后,在步骤S416中,将扰动后的图像作为新的样本来训练神经网络。
本领域技术人员可以理解,在根据本发明的另一个实施例中,可以在训练方法400的步骤S416之后,与图3所示的训练方法300类似地,也包括对卷积层输出的特征图进行随机扰动的步骤,在此不再赘述。
需要说明的是,以上所述的对训练集的样本进行随机扰动的随机变形的方法和对特征图添加随机噪声的正则化方法只在神经网络的训练阶段使用。对于在训练阶段使用了上述两种方法得到的模型,在测试阶段只需要将上述方法去掉即可,即在测试阶段不必对样本进行加扰或对特征图添加随机噪声。
[2.用于图像识别的神经网络的训练装置]
图7是示出根据本发明的一个实施例的用于图像识别的神经网络的训练装置700的示例性配置的框图。
如图7所示,用于图像识别的神经网络的训练装置700包括高维空间表示单元702、第一随机扰动矩阵生成单元704、第一平滑单元706、第一扰动单元708和训练样本确定单元710。
其中,高维空间表示单元702被配置为将样本图像表示为高维空间中的点集,高维空间的大小为样本图像的空间域的大小×样本图像的强度域的大小。
第一随机扰动矩阵生成单元704被配置为生成大小与高维空间的大小相同的第一随机扰动矩阵。
第一平滑单元706被配置为对第一随机扰动矩阵进行平滑。
第一扰动单元708被配置为用平滑后的第一随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集。
训练样本确定单元710被配置为将扰动后的点集作为新的样本来训练神经网络。
其中,空间域的大小为样本图像的宽度×高度,强度域的大小为D1×D2×…×Dn,其中n为强度域的维度,D1、D2、…Dn分别为各个维度的大小。
其中,训练样本确定单元710进一步被配置为:将扰动后的点集投影到高维空间的二维或三维子空间中得到投影后的图像,以及将投影后的图像作为新的样本来训练神经网络。
其中,第一随机扰动矩阵通过给定概率分布来生成,给定概率分布为高斯分布或者均匀分布。
第一平滑单元706进一步被配置为用维度与第一随机扰动矩阵相同的低通滤波器来平滑第一随机扰动矩阵,低通滤波器为高斯滤波器、均值滤波器和中值滤波器中的一个。
第一扰动单元708进一步被配置为:向高维空间中的点集的每个点的值加上平滑后的第一随机扰动矩阵中的对应元素的值。
图8是示出根据本发明的另一个实施例的用于图像识别的神经网络的训练装置800的示例性配置的框图。
如图8所示,训练装置800包括高维空间表示单元802、第一随机扰动矩阵生成单元804、第一平滑单元806、第一扰动单元808、训练样本确定单元810、第二随机扰动矩阵生成单元812、第二平滑单元814和第二扰动单元816。
换句话说,图8所示的训练装置800除了包括图7所示的训练装置700的各个部件之外,还包括第二随机扰动矩阵生成单元812、第二平滑单元814和第二扰动单元816。
图8中的高维空间表示单元802、第一随机扰动矩阵生成单元804、第一平滑单元806、第一扰动单元808、训练样本确定单元810与结合图7所描述的高维空间表示单元702、第一随机扰动矩阵生成单元704、第一平滑单元706、第一扰动单元708和训练样本确定单元710类似,在此不再赘述。
在图8所示的训练装置800中,第二随机扰动矩阵生成单元812被配置为生成第二随机扰动矩阵。
其中,第二随机扰动矩阵的大小为神经网络训练过程中卷积层输出的特征图的长度×宽度×特征图的个数。
在一个示例中,通过给定概率分布来生成第二随机扰动矩阵。该给定概率分布可以为高斯分布、均匀分布或者其他的连续分布。
第二平滑单元814被配置为对第二随机扰动矩阵进行平滑。
具体地,用3维的低通滤波器对第二随机矩阵进行滤波。
其中,低通滤波器可以为高斯滤波器、均值滤波器、中值滤波器等等。
第二扰动单元816被配置为用平滑后的第二随机扰动矩阵对特征图进行扰动。
其中,第二扰动单元816进一步被配置为:向特征图的值加上经加权的第二随机扰动矩阵的相应值,其中,特征图的绝对值越大,则加权系数越大。
图9是示出根据本发明的另一个实施例的用于图像识别的神经网络的训练装置900的示例性配置的框图。
如图9所示,训练装置900包括变换单元902、高维空间表示单元904、随机扰动矩阵生成单元906、平滑单元908、扰动单元910、投影单元912、逆变换单元914和训练样本确定单元916。
变换单元902被配置为对样本图像进行变换得到样本图像的变换域表示。高维空间表示单元904被配置为将变换后的样本图像表示为高维空间中的点集。随机扰动矩阵生成单元906被配置为生成大小与高维空间的大小相同的随机扰动矩阵。平滑单元908被配置为对随机扰动矩阵进行平滑。扰动单元910被配置为用平滑后的随机扰动矩阵对高维空间中的点集进行扰动得到扰动后的点集。投影单元912被配置为将扰动后的点集投影到高维空间的变换域子空间得到扰动后的变换域表示。逆变换单元914被配置为对扰动后的变换域表示进行逆变换得到扰动后的图像。训练样本确定单元916被配置为将扰动后的图像作为新的样本来训练神经网络。
关于用于图像识别的神经网络的训练装置700、800和900的各个部分的操作和功能的细节可以参照结合图1-6描述的本发明的用于图像识别的神经网络的训练方法的实施例,这里不再详细描述。
在此需要说明的是,图7-9所示的装置及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图7-9所示的结构框图进行修改。
本发明提出一种用于图像识别的神经网络的训练方法和装置。本发明从两个方面改进传统的CNN模型的分类性能。首先,针对CNN训练样本不足的问题,本发明拓展了传统的随机变形方法,使得该方法能覆盖更广的范围,因而能产生更多的训练样本。其次,针对CNN模型过拟合的问题,本发明提出一种新的正则化方法。该方法对训练过程中卷积层输出的特征图进行微扰,迫使CNN模型往噪声更鲁棒的方向去训练,从而减轻过拟合的影响,增强了CNN模型的泛化性能。
[3.用以实施本申请的方法和装置的计算设备]
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此链路。输入/输出接口1005也链路到总线1004。
下述部件链路到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可链路到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种用于图像识别的神经网络的训练方法,包括:
将样本图像表示为高维空间中的点集,所述高维空间的大小为所述样本图像的空间域的大小×所述样本图像的强度域的大小;
生成大小与所述高维空间的大小相同的第一随机扰动矩阵;
对所述第一随机扰动矩阵进行平滑;
用平滑后的第一随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;以及
将所述扰动后的点集作为新的样本来训练神经网络。
附记2、根据附记1所述的训练方法,其中,所述空间域的大小为所述样本图像的宽度×高度,所述强度域的大小为D1×D2×…×Dn,其中n为所述强度域的维度,D1、D2、…Dn分别为各个维度的大小。
附记3、根据附记1所述的训练方法,其中,将所述扰动后的点集作为新的样本来训练神经网络包括:
将所述扰动后的点集投影到所述高维空间的二维或三维子空间中得到投影后的图像,以及将投影后的图像作为新的样本来训练神经网络。
附记4、根据附记1所述的训练方法,其中,通过给定概率分布来生成所述第一随机扰动矩阵,所述给定概率分布为高斯分布或者均匀分布。
附记5、根据附记1所述的训练方法,其中,用维度与所述第一随机扰动矩阵相同的低通滤波器来平滑所述第一随机扰动矩阵,所述低通滤波器为高斯滤波器、均值滤波器和中值滤波器中的一个。
附记6、根据附记1所述的训练方法,其中,用平滑后的第一随机扰动矩阵对所述高维空间中的点集进行扰动包括:
向所述高维空间中的点集的每个点的值加上所述平滑后的第一随机扰动矩阵中的对应元素的值。
附记7、根据附记1所述的训练方法,还包括:
生成第二随机扰动矩阵;
对所述第二随机扰动矩阵进行平滑;
用平滑后的第二随机扰动矩阵对神经网络训练过程中卷积层输出的特征图进行扰动,
其中,所述第二随机扰动矩阵的大小为所述特征图的长度×宽度×所述特征图的个数。
附记8、根据附记7所述的训练方法,其中,用所平滑的第二随机扰动矩阵对神经网络训练过程中卷积层输出的特征图进行扰动包括:
向所述特征图的值加上经加权的第二随机扰动矩阵的相应值,其中,所述特征图的绝对值越大,则加权系数越大。
附记9、一种用于图像识别的神经网络的训练方法,包括:
对样本图像进行变换得到所述样本图像的变换域表示;
将变换后的样本图像表示为高维空间中的点集;
生成大小与所述高维空间的大小相同的随机扰动矩阵;
对所述随机扰动矩阵进行平滑;
用平滑后的随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;
将所述扰动后的点集投影到所述高维空间的变换域子空间得到扰动后的样本图像的变换域表示;
对所述扰动后的样本图像的变换域表示进行逆变换得到扰动后的图像;以及
将所述扰动后的图像作为新的样本来训练神经网络。
附记10、根据附记9所述的训练方法,其中,所述变换为离散傅里叶变换或离散余弦变换。
附记11、一种用于图像识别的神经网络的训练装置,包括:
高维空间表示单元,被配置为将样本图像表示为高维空间中的点集,所述高维空间的大小为所述样本图像的空间域的大小×所述样本图像的强度域的大小;
第一随机扰动矩阵生成单元,被配置为生成大小与所述高维空间的大小相同的第一随机扰动矩阵;
第一平滑单元,被配置为对所述第一随机扰动矩阵进行平滑;
第一扰动单元,被配置为用平滑后的第一随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;以及
训练样本确定单元,被配置为将所述扰动后的点集作为新的样本来训练神经网络。
附记12、根据附记11所述的训练装置,其中,所述空间域的大小为所述样本图像的宽度×高度,所述强度域的大小为D1×D2×…×Dn,其中n为所述强度域的维度,D1、D2、…Dn分别为各个维度的大小。
附记13、根据附记11所述的训练装置,其中,所述训练样本确定单元进一步被配置为:
将所述扰动后的点集投影到所述高维空间的二维或三维子空间中得到投影后的图像,以及将投影后的图像作为新的样本来训练神经网络。
附记14、根据附记11所述的训练装置,其中,所述第一随机扰动矩阵通过给定概率分布来生成,所述给定概率分布为高斯分布或者均匀分布。
附记15、根据附记11所述的训练装置,其中,所述第一平滑单元进一步被配置为用维度与所述第一随机扰动矩阵相同的低通滤波器来平滑所述第一随机扰动矩阵,所述低通滤波器为高斯滤波器、均值滤波器和中值滤波器中的一个。
附记16、根据附记11所述的训练装置,所述第一扰动单元进一步被配置为:
向所述高维空间中的点集的每个点的值加上所述平滑后的第一随机扰动矩阵中的对应元素的值。
附记17、根据附记11所述的训练装置,还包括:
第二随机扰动矩阵生成单元,被配置为生成第二随机扰动矩阵;
第二平滑单元,被配置为对所述第二随机扰动矩阵进行平滑;
第二扰动单元,被配置为用平滑后的第二随机扰动矩阵对神经网络训练过程中卷积层输出的特征图进行扰动,
其中,所述第二随机扰动矩阵的大小为所述特征图的长度×宽度×所述特征图的个数。
附记18、根据附记17所述的训练装置,其中,所述第二扰动单元进一步被配置为:
向所述特征图的值加上经加权的第二随机扰动矩阵的相应值,其中,所述特征图的绝对值越大,则加权系数越大。
Claims (10)
1.一种用于图像识别的神经网络的训练方法,包括:
将样本图像表示为高维空间中的点集,所述高维空间的大小为所述样本图像的空间域的大小×所述样本图像的强度域的大小;
生成大小与所述高维空间的大小相同的第一随机扰动矩阵;
对所述第一随机扰动矩阵进行平滑;
用平滑后的第一随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;以及
将所述扰动后的点集作为新的样本来训练神经网络。
2.根据权利要求1所述的训练方法,其中,所述空间域的大小为所述样本图像的宽度×高度,所述强度域的大小为D1×D2×…×Dn,其中n为所述强度域的维度,D1、D2、…Dn分别为各个维度的大小。
3.根据权利要求1所述的训练方法,其中,将所述扰动后的点集作为新的样本来训练神经网络包括:
将所述扰动后的点集投影到所述高维空间的二维或三维子空间中得到投影后的图像,以及将投影后的图像作为新的样本来训练神经网络。
4.根据权利要求1所述的训练方法,其中,通过给定概率分布来生成所述第一随机扰动矩阵,所述给定概率分布为高斯分布或者均匀分布。
5.根据权利要求1所述的训练方法,其中,用维度与所述第一随机扰动矩阵相同的低通滤波器来平滑所述第一随机扰动矩阵,所述低通滤波器为高斯滤波器、均值滤波器和中值滤波器中的一个。
6.根据权利要求1所述的训练方法,还包括:
生成第二随机扰动矩阵;
对所述第二随机扰动矩阵进行平滑;
用平滑后的第二随机扰动矩阵对神经网络训练过程中卷积层输出的特征图进行扰动,
其中,所述第二随机扰动矩阵的大小为所述特征图的长度×宽度×所述特征图的个数。
7.根据权利要求6所述的训练方法,其中,用平滑后的第二随机扰动矩阵对神经网络训练过程中卷积层输出的特征图进行扰动包括:
向所述特征图的值加上经加权的第二随机扰动矩阵的相应值,其中,所述特征图的绝对值越大,则加权系数越大。
8.一种用于图像识别的神经网络的训练方法,包括:
对样本图像进行变换得到所述样本图像的变换域表示;
将变换后的样本图像表示为高维空间中的点集,其中所述高维空间的大小与所述变换后的样本图像相关联;
生成大小与所述高维空间的大小相同的随机扰动矩阵;
对所述随机扰动矩阵进行平滑;
用平滑后的随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;
将所述扰动后的点集投影到所述高维空间的变换域子空间得到扰动后的样本图像的变换域表示;
对所述扰动后的样本图像的变换域表示进行逆变换得到扰动后的图像;以及
将所述扰动后的图像作为新的样本来训练神经网络。
9.根据权利要求8所述的训练方法,其中,所述变换为离散傅里叶变换或离散余弦变换。
10.一种用于图像识别的神经网络的训练装置,包括:
高维空间表示单元,被配置为将样本图像表示为高维空间中的点集,所述高维空间的大小为所述样本图像的空间域的大小×所述样本图像的强度域的大小;
第一随机扰动矩阵生成单元,被配置为生成大小与所述高维空间的大小相同的第一随机扰动矩阵;
第一平滑单元,被配置为对所述第一随机扰动矩阵进行平滑;
第一扰动单元,被配置为用平滑后的第一随机扰动矩阵对所述高维空间中的点集进行扰动得到扰动后的点集;以及
训练样本确定单元,被配置为将所述扰动后的点集作为新的样本来训练神经网络。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510556368.0A CN106485192B (zh) | 2015-09-02 | 2015-09-02 | 用于图像识别的神经网络的训练方法和装置 |
EP16179423.5A EP3139310A1 (en) | 2015-09-02 | 2016-07-14 | Training method and apparatus for neural network for image recognition |
JP2016169239A JP6825269B2 (ja) | 2015-09-02 | 2016-08-31 | 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置 |
US15/254,249 US10296813B2 (en) | 2015-09-02 | 2016-09-01 | Training method and apparatus for neural network for image recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510556368.0A CN106485192B (zh) | 2015-09-02 | 2015-09-02 | 用于图像识别的神经网络的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106485192A CN106485192A (zh) | 2017-03-08 |
CN106485192B true CN106485192B (zh) | 2019-12-06 |
Family
ID=56684444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510556368.0A Active CN106485192B (zh) | 2015-09-02 | 2015-09-02 | 用于图像识别的神经网络的训练方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10296813B2 (zh) |
EP (1) | EP3139310A1 (zh) |
JP (1) | JP6825269B2 (zh) |
CN (1) | CN106485192B (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL262886B (en) * | 2016-05-20 | 2022-09-01 | Magic Leap Inc | Method and system for presenting deformation estimation of a complex image |
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
KR102414583B1 (ko) | 2017-03-23 | 2022-06-29 | 삼성전자주식회사 | 머신 러닝을 수행하는 전자 장치 및 머신 러닝 수행 방법 |
CN108932459B (zh) * | 2017-05-26 | 2021-12-10 | 富士通株式会社 | 脸部识别模型训练方法和装置及脸部识别方法 |
KR102301232B1 (ko) | 2017-05-31 | 2021-09-10 | 삼성전자주식회사 | 다채널 특징맵 영상을 처리하는 방법 및 장치 |
US10783394B2 (en) * | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Equivariant landmark transformation for landmark localization |
CN107463960A (zh) * | 2017-08-07 | 2017-12-12 | 石林星 | 一种图像识别方法及装置 |
CN107563434B (zh) * | 2017-08-30 | 2020-12-15 | 山东大学 | 一种基于三维卷积神经网络的脑部mri图像分类方法、装置 |
CN107564063B (zh) * | 2017-08-30 | 2021-08-13 | 广州方硅信息技术有限公司 | 一种基于卷积神经网络的虚拟物显示方法及装置 |
CN107644415B (zh) * | 2017-09-08 | 2019-02-22 | 众安信息技术服务有限公司 | 一种文本图像质量评估方法及设备 |
CN107644428A (zh) * | 2017-09-29 | 2018-01-30 | 广东电网有限责任公司中山供电局 | 一种基于多域度重映射的输电线路漂浮物图像分割方法 |
US10650072B2 (en) * | 2017-10-30 | 2020-05-12 | Facebook, Inc. | System and method for determination of a digital destination based on a multi-part identifier |
US10810277B1 (en) | 2017-10-30 | 2020-10-20 | Facebook, Inc. | System and method for determination of a digital destination based on a multi-part identifier |
CN108090451B (zh) * | 2017-12-20 | 2019-12-24 | 湖北工业大学 | 一种人脸识别方法及系统 |
JP2018156632A (ja) * | 2017-12-25 | 2018-10-04 | 株式会社コナミデジタルエンタテインメント | サーバ装置、及びそれに用いられるコンピュータプログラム |
WO2019147020A1 (ko) * | 2018-01-23 | 2019-08-01 | 주식회사 날비컴퍼니 | 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치 |
KR102174777B1 (ko) | 2018-01-23 | 2020-11-06 | 주식회사 날비컴퍼니 | 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치 |
US10373022B1 (en) * | 2018-02-28 | 2019-08-06 | Konica Minolta Laboratory U.S.A., Inc. | Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network |
CN108845759B (zh) * | 2018-04-28 | 2021-08-24 | 北京猎户星空科技有限公司 | 一种数据序列构建方法、装置及电子设备 |
CN108615071B (zh) * | 2018-05-10 | 2020-11-24 | 创新先进技术有限公司 | 模型测试的方法及装置 |
CN111542841A (zh) * | 2018-06-08 | 2020-08-14 | 北京嘀嘀无限科技发展有限公司 | 一种内容识别的系统和方法 |
US12014267B2 (en) * | 2018-07-13 | 2024-06-18 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for sequential event prediction with noise-contrastive estimation for marked temporal point process |
US20200027530A1 (en) * | 2018-07-18 | 2020-01-23 | International Business Machines Corporation | Simulating Patients for Developing Artificial Intelligence Based Medical Solutions |
CN110795976B (zh) * | 2018-08-03 | 2023-05-05 | 华为云计算技术有限公司 | 一种训练物体检测模型的方法、装置以及设备 |
US10719737B2 (en) | 2018-08-23 | 2020-07-21 | Denso International America, Inc. | Image classification system for resizing images to maintain aspect ratio information |
JP7396376B2 (ja) * | 2019-06-28 | 2023-12-12 | 日本電気株式会社 | なりすまし検出装置、なりすまし検出方法、及びプログラム |
CN114341878A (zh) | 2019-09-13 | 2022-04-12 | 三菱电机株式会社 | 信息处理装置以及具备该信息处理装置的电子设备 |
CN110728661A (zh) * | 2019-09-18 | 2020-01-24 | 清华大学 | 基于随机生成样本的图像畸变评价网络训练方法及装置 |
JP7279685B2 (ja) * | 2020-04-23 | 2023-05-23 | トヨタ自動車株式会社 | 情報処理システム |
CN111652966B (zh) * | 2020-05-11 | 2021-06-04 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
CN111723714B (zh) * | 2020-06-10 | 2023-11-03 | 上海商汤智能科技有限公司 | 识别人脸图像真伪的方法、装置及介质 |
CN111652330B (zh) * | 2020-08-05 | 2020-11-13 | 深圳市优必选科技股份有限公司 | 图像处理方法、装置、系统、电子设备及可读存储介质 |
CN112101294B (zh) * | 2020-09-29 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 针对图像识别模型的增强训练方法及装置 |
US11615782B2 (en) * | 2020-11-12 | 2023-03-28 | Sony Interactive Entertainment Inc. | Semi-sorted batching with variable length input for efficient training |
CN112784494B (zh) * | 2021-01-27 | 2024-02-06 | 中国科学院苏州生物医学工程技术研究所 | 假阳性识别模型的训练方法、目标识别方法及装置 |
CN113066165B (zh) * | 2021-03-19 | 2022-06-21 | 北京邮电大学 | 多阶段无监督学习的三维重建方法、装置和电子设备 |
CN112990205B (zh) * | 2021-05-11 | 2021-11-02 | 创新奇智(北京)科技有限公司 | 手写字符样本的生成方法及装置、电子设备、存储介质 |
CN113222873B (zh) * | 2021-06-01 | 2023-06-16 | 平安科技(深圳)有限公司 | 基于二维高斯分布的图像数据增强方法、装置及存储介质 |
CN113343295B (zh) * | 2021-06-07 | 2023-01-24 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的图像处理方法、装置、设备和存储介质 |
CN113627475A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种对样本进行不确定性估计的方法及装置 |
CN113284142B (zh) * | 2021-07-16 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像检测方法、装置、计算机可读存储介质及计算机设备 |
CN115861740B (zh) * | 2023-02-27 | 2023-05-30 | 常州微亿智造科技有限公司 | 工业检测中的样本生成方法、样本生成装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231672A (zh) * | 2008-02-02 | 2008-07-30 | 湖南大学 | 基于改进型bp神经网络的模拟电路软故障诊断方法 |
CN103034868A (zh) * | 2012-11-29 | 2013-04-10 | 中国地质大学(武汉) | 一种针对小样本以及高维图像的分类方法 |
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
CN104346622A (zh) * | 2013-07-31 | 2015-02-11 | 富士通株式会社 | 卷积神经网络分类器及其分类方法和训练方法 |
CN104504362A (zh) * | 2014-11-19 | 2015-04-08 | 南京艾柯勒斯网络科技有限公司 | 基于卷积神经网络的人脸检测方法 |
CN104765728A (zh) * | 2014-01-08 | 2015-07-08 | 富士通株式会社 | 训练神经网络的方法和装置以及确定稀疏特征向量的方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2870415B2 (ja) * | 1994-08-22 | 1999-03-17 | 日本電気株式会社 | 領域分割方法および装置 |
US5903884A (en) * | 1995-08-08 | 1999-05-11 | Apple Computer, Inc. | Method for training a statistical classifier with reduced tendency for overfitting |
US7130776B2 (en) * | 2002-03-25 | 2006-10-31 | Lockheed Martin Corporation | Method and computer program product for producing a pattern recognition training set |
US6859764B2 (en) * | 2003-04-03 | 2005-02-22 | The United States Of America As Represented By The Secretary Of The Army | Detecting, classifying and localizing minor amounts of an element within a sample of material |
US7558622B2 (en) * | 2006-05-24 | 2009-07-07 | Bao Tran | Mesh network stroke monitoring appliance |
US9907473B2 (en) * | 2015-04-03 | 2018-03-06 | Koninklijke Philips N.V. | Personal monitoring system |
JP2008009745A (ja) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | 顔検出装置 |
US8588286B2 (en) * | 2010-05-25 | 2013-11-19 | Xw, Llc | Processor, modem and method for cancelling alien noise in coordinated digital subscriber lines |
EP2507790B1 (en) * | 2011-06-06 | 2014-01-22 | Bridge Mediatech, S.L. | Method and system for robust audio hashing. |
JP5897343B2 (ja) * | 2012-02-17 | 2016-03-30 | 株式会社日立製作所 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
US9251437B2 (en) * | 2012-12-24 | 2016-02-02 | Google Inc. | System and method for generating training cases for image classification |
US20160314800A1 (en) * | 2013-12-23 | 2016-10-27 | Analog Devices, Inc. | Computationally efficient method for filtering noise |
WO2015179632A1 (en) * | 2014-05-22 | 2015-11-26 | Scheffler Lee J | Methods and systems for neural and cognitive processing |
US20150369756A1 (en) * | 2014-06-20 | 2015-12-24 | Manchester Metropolitan University | Scanning apparatus |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
US9717417B2 (en) * | 2014-10-29 | 2017-08-01 | Spectral Md, Inc. | Reflective mode multi-spectral time-resolved optical imaging methods and apparatuses for tissue classification |
US10839510B2 (en) * | 2015-08-19 | 2020-11-17 | Colorado Seminary, Which Owns And Operates The University Of Denver | Methods and systems for human tissue analysis using shearlet transforms |
-
2015
- 2015-09-02 CN CN201510556368.0A patent/CN106485192B/zh active Active
-
2016
- 2016-07-14 EP EP16179423.5A patent/EP3139310A1/en not_active Ceased
- 2016-08-31 JP JP2016169239A patent/JP6825269B2/ja active Active
- 2016-09-01 US US15/254,249 patent/US10296813B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231672A (zh) * | 2008-02-02 | 2008-07-30 | 湖南大学 | 基于改进型bp神经网络的模拟电路软故障诊断方法 |
CN103034868A (zh) * | 2012-11-29 | 2013-04-10 | 中国地质大学(武汉) | 一种针对小样本以及高维图像的分类方法 |
CN104346622A (zh) * | 2013-07-31 | 2015-02-11 | 富士通株式会社 | 卷积神经网络分类器及其分类方法和训练方法 |
CN104765728A (zh) * | 2014-01-08 | 2015-07-08 | 富士通株式会社 | 训练神经网络的方法和装置以及确定稀疏特征向量的方法 |
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
CN104504362A (zh) * | 2014-11-19 | 2015-04-08 | 南京艾柯勒斯网络科技有限公司 | 基于卷积神经网络的人脸检测方法 |
Non-Patent Citations (1)
Title |
---|
基于BP神经网络的液压系统泄漏故障诊断;方志宏 等;《机械科学与技术》;19980220;第17卷(第1期);116-118 * |
Also Published As
Publication number | Publication date |
---|---|
EP3139310A1 (en) | 2017-03-08 |
US10296813B2 (en) | 2019-05-21 |
US20170061246A1 (en) | 2017-03-02 |
JP6825269B2 (ja) | 2021-02-03 |
CN106485192A (zh) | 2017-03-08 |
JP2017049996A (ja) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485192B (zh) | 用于图像识别的神经网络的训练方法和装置 | |
CN108351984B (zh) | 硬件高效的深度卷积神经网络 | |
JP5410355B2 (ja) | 行列生成装置、方法、プログラムならびに情報処理装置 | |
Smaragdis et al. | Shift-invariant probabilistic latent component analysis | |
CN110059288B (zh) | 用于获得促进机器学习任务用的最佳母小波的系统和方法 | |
Xie et al. | A novel gradient-guided post-processing method for adaptive image steganography | |
Ye et al. | A multi-attribute controllable generative model for histopathology image synthesis | |
KR20200110255A (ko) | 영상의 특징을 측정하는 방법 및 장치 | |
Tjoa et al. | Improving deep neural network classification confidence using heatmap-based eXplainable AI | |
Chowdhury et al. | A new image segmentation technique using bi-entropy function minimization | |
Zaynidinov et al. | Application of Daubechies Wavelets in Digital Processing of Biomedical Signals and Images | |
CN113168555A (zh) | 减少卷积神经网络的资源消耗的系统及相关方法 | |
Gao et al. | SST: Sparse self-attention transformer for infrared spectrum deconvolution | |
CN104182749B (zh) | 图像处理装置、图像处理方法以及电子设备 | |
US11288534B2 (en) | Apparatus and method for image processing for machine learning | |
JP4090969B2 (ja) | 信号分離方法、信号分離プログラム及びそのプログラムを記録した記録媒体 | |
Sun et al. | Active set type algorithms for nonnegative matrix factorization in hyperspectral unmixing | |
JP5548508B2 (ja) | 画像分類装置及びプログラム | |
Permiakova et al. | Sketched Stochastic Dictionary Learning for large‐scale data and application to high‐throughput mass spectrometry | |
Rujirakul et al. | Weighted histogram equalized PEM-PCA face recognition | |
KR102466156B1 (ko) | 컨벌루셔널 신경망 연산 방법 | |
KR20080005849A (ko) | 컨벡스 최적화법에 기반한 데이터 군집화 방법 | |
Xie et al. | Dilated kernel prediction network for single-image denoising | |
Sannathamby et al. | Unified framework of dense convolution neural network for image super resolution | |
Chen et al. | Lightweight Patch-Wise Casformer for dynamic scene deblurring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |