CN105868785A - 基于卷积神经网络的图片鉴别方法及系统 - Google Patents
基于卷积神经网络的图片鉴别方法及系统 Download PDFInfo
- Publication number
- CN105868785A CN105868785A CN201610195777.7A CN201610195777A CN105868785A CN 105868785 A CN105868785 A CN 105868785A CN 201610195777 A CN201610195777 A CN 201610195777A CN 105868785 A CN105868785 A CN 105868785A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolutional
- convolutional layer
- picture
- pond
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 36
- 230000009467 reduction Effects 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 40
- 230000004913 activation Effects 0.000 claims description 22
- 238000012850 discrimination method Methods 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 abstract 3
- 239000000284 extract Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241001185697 Fenestella Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的图片鉴别方法,包括:将图片数据输入至少两个串联连接的卷积层进行特征的提取,获得提取后的特征数据,其中,所述卷积层的核大小均不大于5×5;将提取后的特征数据通过池化层和卷积层进行特征数据的降维和提取,获得降维后的特征数据;其中,池化层采用平均值池化;将图片降维后的特征数据输入全连接层中,得到图片数据的二维特征值;将二维特征值通过分类器进行分类处理,得到图片的鉴别结果。本发明还公开了基于卷积神经网络的图片鉴别系统。所述基于卷积神经网络的图片鉴别方法及系统通过较小核的卷积层进行特征数据的提取,使得能够更好、更快地提取出图片的局部特征,进而提高了图片鉴别的速度和效率。
Description
技术领域
本发明涉及卷积神经网络技术领域,特别是指一种基于卷积神经网络的图片鉴别方法及系统。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是近年发展起来,并引起广泛重视的一种高效识别方法。目前,卷积神经网络已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。
一般地,卷积神经网络的基本结构中包括多个卷积层,每个卷积层上设置有多个神经元,每个神经元的输入与前一个卷积层的局部接受域(localreceptive filed)相连,通过对前一个卷积层的局部接受域的数据进行卷积运算,以提取该局部接受域的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;然后,通过求局部平均(也称池化处理)与二次特征提取以进行特征映射,得到特征信息,该特征信息输出到下一个卷积层继续进行处理,直到到达最后一层(输出层),从而得到最终输出结果。特征映射通常采用sigmoid函数作为卷积神经网络的激活函数。在卷积神经网络中,一个卷积层上的神经元与同一层的其他神经元共享权重,因而减少了网络自由参数的个数。在卷积神经网络模型中,可将激活函数(activation function)应用于每个作为输出结果的数据值以确定是否达到阈值,因此而产生的数据值作为下一个卷积层的输入。
通常的,一个用于识别的卷积神经网络计算模型包括卷积层、池化层、全连接层以及后续的分类器。通过对已有的样本数据的训练,能够获得较好的卷积神经网络计算模型,当需要识别新的目标时,只需要将目标的数据输入计算模型,就能够实现对新的目标的识别。
但是,现有的利用卷积神经网络的计算模型进行目标鉴别时,通常按照现有较为固定的模型架构进行计算,如AlexNet、VGG、GoogLeNet等,这些模型中卷积层、池化层、全连接层及激活函数等参数及架构都已经固定,虽然其具有通用性,但是也使得这些模型在应用于特定的场景时,其识别结果不佳。例如:在针对于视频或图片的鉴黄中,鉴别的效果较差。
发明内容
有鉴于此,本发明的目的在于提出一种基于卷积神经网络的图片鉴别方法及系统,能够大大提高图片鉴别的速度和准确性。
基于上述目的本发明提供的一种基于卷积神经网络的图片鉴别方法,包括:
将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据;
将所述图片提取后的特征数据通过至少一个池化层和至少一个卷积层进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据;其中,所述池化层采用平均值池化;
将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;
将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
可选的,所述至少两个串联连接的卷积层包含四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层的核大小为3×3、C2层的核大小为3×3、C3层的核大小为5×5、C4层的核大小为5×5。
进一步,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。
可选的,所述将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据的步骤包括:
将所述图片提取后的特征数据通过依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为256个;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256个。
可选的,所述至少一个全连接层为依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。
可选的,所述待鉴别的图片数据依次经过卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。
可选的,所有所述卷积层和所有所述全连接层均采用激活函数LEAKYRELU进行数据的激活处理。
本发明还提供了一种基于卷积神经网络的图片鉴别系统,包括:
数据提取模块,用于将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据,并将图片提取后的特征数据发送给数据降维模块;其中,所述至少两个卷积层的核大小均不大于5×5;
数据降维模块,用于接收所述数据提取模块发送的图片提取后的特征数据,将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据,将获得的图片降维后的特征数据发送给全连接模块;其中,所述池化层采用平均值池化;
全连接模块,用于接收所述特征降维模块发送的图片降维后的特征数据,将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;将获得的图片数据的二维特征值发送给分类模块;
分类模块,用于接收所述全连接模块发送的图片数据的二维特征值,将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
可选的,所述数据提取模块包括:
四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层核大小为3×3、C2层核大小为3×3、C3层核大小为5×5、C4层核大小为5×5。
进一步,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。
可选的,所述数据降维模块包括:
依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为256个;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256。
可选的,所述全连接模块包括:
依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。
可选的,所述系统包括依次连接的卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。
可选的,所有所述卷积层和所有所述全连接层均采用激活函数LEAKYRELU进行数据的激活处理。
从上面所述可以看出,本发明实施例提供的基于卷积神经网络的图片鉴别方法及系统首先通过多个小窗口(卷积层的核小)的卷积层相连,使得能够更好、更快地提取出图片的局部特征,并将这些局部特征快速组合成高级特征,能够大大提高图片鉴别的速度和效率。
此外,本发明实施例所述的基于卷积神经网络的图片鉴别方法及系统通过采用平均值池化以及全连接层的处理,使得图片数据最后输出为2个特征,进而使得分类器进行分类鉴别处理时,不仅速度更快,而且准确性更高。
附图说明
图1为本发明提供的基于卷积神经网络的图片鉴别方法的实施例的流程图;
图2为本发明提供的卷积神经网络计算模型的结构示意图;
图3为本发明提供的基于卷积神经网络的图片鉴别系统的实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
参照图1所示,为本发明提供的基于卷积神经网络的图片鉴别方法的实施例的流程图。所述基于卷积神经网络的图片鉴别方法,包括:
步骤101,将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据,其中,优选的,所述至少两个卷积层的核大小均不大于5×5;
其中,所述待鉴别的图片数据既可以为直接的图片数据信息,还可以为视频中获取的图片信息,也即本发明所述的方法也同样适用于视频的鉴别。所述卷积层用于对输入的图片数据进行局部块特征的提取,获得更高一级的特征数据,且每个卷积层中均会进行多次的卷积操作。通常卷积层的核采用n×n的结构(也可以采用m×n),所述卷积层的核越小,则能够提取出更多的特征,但是相应的特征数据也更多。
步骤102,将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据;其中,所述池化层采用平均值池化;
其中,所述池化层用于将卷积层输出的特征数据进行降维处理,也即在保证数据有效性的基础上大大减少数据量。这里所述的反复是指重复池化或卷积的过程,例如:池化层-卷积层-池化层-卷积层,当然,也可以在中间的某一层中多次出现池化层或者卷积层。所述平均值池化是指按照池化的原则,取池化核大小范围内数据的平均值作为池化后的输出数据。
步骤103,将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;
不论经过多少个全连接层的处理,最后一个全连接层都输出一个2维的特征数据,这样,在进行分类鉴别时能够更加准确。
步骤104,将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
由上述实施例可知,所述基于卷积神经网络的图片鉴别方法通过多个小窗口(即卷积层的核较小)的卷积层依次相连,使得能够更好、更快地提取出图片的局部特征,并将这些局部特征快速组合成高级特征,能够大大提高图片鉴别的速度和效率。同时,本发明所述的基于卷积神经网络的图片鉴别方法及系统通过采用平均值池化以及全连接层的处理,使得图片数据最后输出为2个特征,进而使得分类器进行分类鉴别处理时,不仅速度更快,而且准确性更高。
作为本发明一个较佳的实施例,所述至少两个串联连接的卷积层包含四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层核大小为3×3、C2层核大小为3×3、C3层核大小为5×5、C4层核大小为5×5。这样,依次连接的卷积层能够更有效地提取图片的特征数据,同时还减少了神经网络计算模型的参数,对于提升鉴别速度,防止过度拟合由较大的作用。
作为本发明进一步的实施例,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。其中,所述卷积层的步数指卷积层的核每次移动的步长,所述pad值是指在输入数据的周围是否添加一圈数据参与运算,pad值的大小也即添加数据的圈数。这样,能够进一步提高卷积层的处理效率和速度,进而提高图片鉴别的效率。
作为本发明一个优选的实施例,所述将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据的步骤102包括:将所述图片提取后的特征数据通过依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为256;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256个。
作为本发明另一个优选的实施例,所述至少一个全连接层为依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。这里,所述的节点数据也可以理解为特征数目。所述dropout方式是通过随机开启一定数目的数据,而将剩下的数据丢弃,这样能够有效地防止数据的过拟合,进而提高鉴别的效率。
参照图2所示,为本发明提供的卷积神经网络计算模型的结构示意图。所述待鉴别的图片数据依次经过卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。其中,所有卷积层以及全连接层fc9、全连接层fc10、全连接层fc11均通过激活函数LEAKY RELU进行数据的处理,使得前一层的数据能够向下一层传递。所述激活函数是将上一次的输出数据通过激活函数中的算法计算得到新的输出结果,将所述新的输出结果作为下一层的输入数据。本发明通过选用分类器SVM(支持向量机),使得能够更加适用于二分问题的鉴别。同时,本发明所采用的激活函数LEAKY RELU相比于传统的激活函数RELU,在函数值小于零时,也具有一定的输出值,也即使得函数值小于零这一部分的数据也可以参与训练过程。这里,当函数值小于0时,输出值为输入值乘以一个系数a,所述系数a优选采用固定值。
优选的,所有所述卷积层和所有所述全连接层均采用激活函数LEAKYRELU进行数据的激活处理。其中,最后一个全连基层可以不需要激活函数。这样,能够使得数据的传递更为有效。
在一些可选的实施例中,本发明准备正负训练样本一共100小时视频,从视频中截取110万张图片,其中,正样本训练图片50万张,负样本训练图片50万张。测试样本10万张,正负样本各5万张。网络中卷积层采用标准偏差为0.01的高斯分布进行初始化。LEAKY RELU函数的系数a参数为0.01。全连接层中参数采用标准偏差为0.002的高斯分布进行初始化。dropout模块的参数为0.5。训练过程采用反向传播算法(BP算法)进行参数的训练及更新。本发明中一共训练30万次迭代。
参照图3所示,为本发明提供的一种基于卷积神经网络的图片鉴别系统的一个实施例的结构示意图。所述基于卷积神经网络的图片鉴别系统包括:
数据提取模块201,用于将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据,并将图片提取后的特征数据发送给数据降维模块202;其中,所述至少两个卷积层的核大小均不大于5×5;
数据降维模块202,用于接收所述数据提取模块201发送的图片提取后的特征数据,将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据,将获得的图片降维后的特征数据发送给全连接模块203;其中,所述池化层采用平均值池化;
全连接模块203,用于接收所述特征降维模块202发送的图片降维后的特征数据,将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;将获得的图片数据的二维特征值发送给分类模块204;
分类模块204,用于接收所述全连接模块203发送的图片数据的二维特征值,将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
由上述实施例可知,所述基于卷积神经网络的图片鉴别系统通过所述数据提取模块201完成数据的卷积,进而数显图片数据特征的提取,然后通过所述数据降维模块202实现特征的降维处理,通过所述全连接模块203获得图片数据的二维特征值,最后通过所述分类模块204实现图片数据的鉴别。所述基于卷积神经网络的图片鉴别系统通过采用较小核的卷积层实现特征数据的有效提取,不仅提高了图片鉴别的效率和速度,而且有效的防止了过拟合。
作为本发明一个优选的实施例,所述数据提取模块201包括:四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层核大小为3×3、C2层核大小为3×3、C3层核大小为5×5、C4层核大小为5×5。
作为本发明进一步的实施例,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。
作为本发明另一个优选的实施例,所述数据降维模块202包括:依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为256个;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256。
在一些可选的实施例中,所述全连接模块203包括:依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。
在本发明另一些可选的实施例中,所述系统包括依次连接的卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。
优选的,所有所述卷积层和所有所述全连接层均采用激活函数LEAKYRELU进行数据的激活处理。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种基于卷积神经网络的图片鉴别方法,其特征在于,包括:
将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据;
将所述图片提取后的特征数据通过至少一个池化层和至少一个卷积层进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据;其中,所述池化层采用平均值池化;
将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;
将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
2.根据权利要求1所述的方法,其特征在于,所述至少两个串联连接的卷积层包含四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层的核大小为3×3、C2层的核大小为3×3、C3层的核大小为5×5、C4层的核大小为5×5。
3.根据权利要求2所述的方法,其特征在于,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。
4.根据权利要求1所述的方法,其特征在于,所述将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据的步骤包括:
将所述图片提取后的特征数据通过依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为为256;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256个。
5.根据权利要求1所述的方法,其特征在于,所述至少一个全连接层为依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。
6.根据权利要求1所述的方法,其特征在于,所述待鉴别的图片数据依次经过卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所有所述卷积层和所有所述全连接层均采用激活函数LEAKY RELU进行数据的激活处理。
8.一种基于卷积神经网络的图片鉴别系统,其特征在于,包括:
数据提取模块,用于将待鉴别的图片数据输入至少两个串联连接的卷积层进行特征的连续提取,获得图片提取后的特征数据,并将图片提取后的特征数据发送给数据降维模块;其中,所述至少两个卷积层的核大小均不大于5×5;
数据降维模块,用于接收所述数据提取模块发送的图片提取后的特征数据,将所述图片提取后的特征数据通过至少一个的池化层和至少一个卷积层反复的进行特征数据的降维和特征数据的提取,获得图片降维后的特征数据,将获得的图片降维后的特征数据发送给全连接模块;其中,所述池化层采用平均值池化;
全连接模块,用于接收所述特征降维模块发送的图片降维后的特征数据,将所述图片降维后的特征数据输入至少一个全连接层中,得到图片数据的二维特征值;将获得的图片数据的二维特征值发送给分类模块;
分类模块,用于接收所述全连接模块发送的图片数据的二维特征值,将所述二维特征值通过分类器进行分类处理,得到图片的鉴别结果。
9.根据权利要求8所述的系统,其特征在于,所述数据提取模块包括:
四个依次连接的卷积层C1层、C2层、C3层和C4层,且所述卷积层的核大小分别为:C1层核大小为3×3、C2层核大小为3×3、C3层核大小为5×5、C4层核大小为5×5。
10.根据权利要求9所述的系统,其特征在于,所述四个依次连接的卷积层的步数均为1;四个卷积层的卷积核的个数均为96个;所述C1层和C2层的pad值均为1,所述C3层和C4层的pad值均为2。
11.根据权利要求8所述的系统,其特征在于,所述数据降维模块包括:
依次连接的池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8和池化层P8;其中,所述池化层P4、池化层P5、池化层P8的核大小均为3,步数均为2,pad值均为0;所述卷积层C5的核大小为5,步数为1,pad值为2,卷积核的个数为256个;所述卷积层C6、卷积层C7、卷积层C8的核大小均为3,步数均为1,pad值均为1,卷积核的个数分别为384、384、256个。
12.根据权利要求8所述的系统,其特征在于,所述全连接模块包括:
依次连接的全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12;其中所述全连接层的节点数目分别为2048、2048、2048、2;且所有全连接层均采用dropout方式进行数据处理。
13.根据权利要求8所述的系统,其特征在于,所述系统包括依次连接的卷积层C1、卷积层C2、卷积层C3、卷积层C4、池化层P4、卷积层C5、池化层P5、卷积层C6、卷积层C7、卷积层C8、池化层P8、全连接层fc9、全连接层fc10、全连接层fc11、全连接层fc12的处理,然后连接到分类器SVM中经过分类处理,得到图片的鉴别结果。
14.根据权利要求8-13任意一项所述的系统,其特征在于,所有所述卷积层和所有所述全连接层均采用激活函数LEAKY RELU进行数据的激活处理。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610195777.7A CN105868785A (zh) | 2016-03-30 | 2016-03-30 | 基于卷积神经网络的图片鉴别方法及系统 |
PCT/CN2016/096031 WO2017166586A1 (zh) | 2016-03-30 | 2016-08-19 | 基于卷积神经网络的图片鉴别方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610195777.7A CN105868785A (zh) | 2016-03-30 | 2016-03-30 | 基于卷积神经网络的图片鉴别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105868785A true CN105868785A (zh) | 2016-08-17 |
Family
ID=56626701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610195777.7A Pending CN105868785A (zh) | 2016-03-30 | 2016-03-30 | 基于卷积神经网络的图片鉴别方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105868785A (zh) |
WO (1) | WO2017166586A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855944A (zh) * | 2016-12-22 | 2017-06-16 | 浙江宇视科技有限公司 | 行人标志物识别方法及装置 |
WO2017166586A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 基于卷积神经网络的图片鉴别方法、系统和电子设备 |
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN107886344A (zh) * | 2016-09-30 | 2018-04-06 | 北京金山安全软件有限公司 | 基于卷积神经网络的欺诈广告页面识别方法和装置 |
CN108009592A (zh) * | 2017-12-15 | 2018-05-08 | 云南大学 | 一种糖尿病性视网膜图像自动分类方法 |
WO2018099473A1 (zh) * | 2016-12-02 | 2018-06-07 | 北京市商汤科技开发有限公司 | 场景分析方法和系统、电子设备 |
WO2018113261A1 (zh) * | 2016-12-22 | 2018-06-28 | 深圳光启合众科技有限公司 | 目标对象的识别方法和装置、机器人 |
WO2018120740A1 (zh) * | 2016-12-29 | 2018-07-05 | 深圳光启合众科技有限公司 | 图片分类方法和装置、机器人 |
CN109740482A (zh) * | 2018-12-26 | 2019-05-10 | 北京科技大学 | 一种图像文本识别方法和装置 |
CN109863512A (zh) * | 2016-09-01 | 2019-06-07 | 通用医疗公司 | 用于通过流形近似进行自动变换的系统和方法 |
CN110309707A (zh) * | 2019-05-08 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习的咖啡果实成熟度的识别方法 |
CN109840584B (zh) * | 2017-11-24 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 基于卷积神经网络模型的图像数据分类方法及设备 |
CN116959477A (zh) * | 2023-09-19 | 2023-10-27 | 杭州爱华仪器有限公司 | 一种基于卷积神经网络的噪声源分类的方法及装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257180B (zh) * | 2018-02-07 | 2023-08-04 | 北京深度奇点科技有限公司 | 焊接间隙定位方法和装置 |
CN109658489B (zh) * | 2018-12-17 | 2023-06-30 | 清华大学 | 一种基于神经网络的立体网格数据处理方法和系统 |
CN109858497B (zh) * | 2019-01-18 | 2023-09-01 | 五邑大学 | 一种改进的残差网络及其特征提取方法、装置 |
JP7130905B2 (ja) * | 2019-06-18 | 2022-09-06 | ユーエービー “ニューロテクノロジー” | フィードフォワード畳み込みニューラルネットワークを使用した高速且つ堅牢な皮膚紋理の印のマニューシャの抽出 |
CN110378424A (zh) * | 2019-07-23 | 2019-10-25 | 国网河北省电力有限公司电力科学研究院 | 基于卷积神经网络的变压器套管故障红外图像识别方法 |
CN110674488B (zh) * | 2019-09-06 | 2024-04-26 | 深圳壹账通智能科技有限公司 | 基于神经网络的验证码识别方法、系统及计算机设备 |
CN111222529A (zh) * | 2019-09-29 | 2020-06-02 | 上海上实龙创智慧能源科技股份有限公司 | 一种基于GoogLeNet-SVM的污水曝气池泡沫识别方法 |
CN111145169A (zh) * | 2019-12-31 | 2020-05-12 | 成都理工大学 | 基于多列异步神经网络的地铁站乘客数量调度系统及方法 |
CN111291627B (zh) * | 2020-01-16 | 2024-04-19 | 广州酷狗计算机科技有限公司 | 人脸识别方法、装置及计算机设备 |
CN111666865B (zh) * | 2020-06-02 | 2023-05-23 | 上海数创医疗科技有限公司 | 多导联心电信号卷积神经网络分类方法及其使用方法 |
CN111709389A (zh) * | 2020-06-24 | 2020-09-25 | 山东省食品药品检验研究院 | 基于显微图像的中药粉末智能鉴别方法和系统 |
CN111709390A (zh) * | 2020-08-11 | 2020-09-25 | 山东省食品药品检验研究院 | 基于显微图像的草酸钙晶体智能鉴别方法和系统 |
CN112215243A (zh) * | 2020-10-30 | 2021-01-12 | 百度(中国)有限公司 | 图像特征提取方法、装置、设备及存储介质 |
CN113204659B (zh) * | 2021-03-26 | 2024-01-19 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签分类方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850836A (zh) * | 2015-05-15 | 2015-08-19 | 浙江大学 | 基于深度卷积神经网络的害虫图像自动识别方法 |
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
CN105184271A (zh) * | 2015-09-18 | 2015-12-23 | 苏州派瑞雷尔智能科技有限公司 | 一种基于深度学习的车辆自动检测方法 |
CN105354568A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于卷积神经网络的车标识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868785A (zh) * | 2016-03-30 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于卷积神经网络的图片鉴别方法及系统 |
-
2016
- 2016-03-30 CN CN201610195777.7A patent/CN105868785A/zh active Pending
- 2016-08-19 WO PCT/CN2016/096031 patent/WO2017166586A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
CN104850836A (zh) * | 2015-05-15 | 2015-08-19 | 浙江大学 | 基于深度卷积神经网络的害虫图像自动识别方法 |
CN105354568A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于卷积神经网络的车标识别方法 |
CN105184271A (zh) * | 2015-09-18 | 2015-12-23 | 苏州派瑞雷尔智能科技有限公司 | 一种基于深度学习的车辆自动检测方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166586A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 基于卷积神经网络的图片鉴别方法、系统和电子设备 |
CN109863512A (zh) * | 2016-09-01 | 2019-06-07 | 通用医疗公司 | 用于通过流形近似进行自动变换的系统和方法 |
CN109863512B (zh) * | 2016-09-01 | 2023-10-20 | 通用医疗公司 | 用于通过流形近似进行自动变换的系统和方法 |
CN107886344A (zh) * | 2016-09-30 | 2018-04-06 | 北京金山安全软件有限公司 | 基于卷积神经网络的欺诈广告页面识别方法和装置 |
US11062453B2 (en) | 2016-12-02 | 2021-07-13 | Beijing Sensetime Technology Development Co., Ltd. | Method and system for scene parsing and storage medium |
WO2018099473A1 (zh) * | 2016-12-02 | 2018-06-07 | 北京市商汤科技开发有限公司 | 场景分析方法和系统、电子设备 |
CN108229263B (zh) * | 2016-12-22 | 2021-03-02 | 杭州光启人工智能研究院 | 目标对象的识别方法和装置、机器人 |
CN108229263A (zh) * | 2016-12-22 | 2018-06-29 | 深圳光启合众科技有限公司 | 目标对象的识别方法和装置、机器人 |
WO2018113261A1 (zh) * | 2016-12-22 | 2018-06-28 | 深圳光启合众科技有限公司 | 目标对象的识别方法和装置、机器人 |
CN106855944B (zh) * | 2016-12-22 | 2020-01-14 | 浙江宇视科技有限公司 | 行人标志物识别方法及装置 |
CN106855944A (zh) * | 2016-12-22 | 2017-06-16 | 浙江宇视科技有限公司 | 行人标志物识别方法及装置 |
WO2018120740A1 (zh) * | 2016-12-29 | 2018-07-05 | 深圳光启合众科技有限公司 | 图片分类方法和装置、机器人 |
CN108256544A (zh) * | 2016-12-29 | 2018-07-06 | 深圳光启合众科技有限公司 | 图片分类方法和装置、机器人 |
CN108256544B (zh) * | 2016-12-29 | 2019-07-23 | 杭州光启人工智能研究院 | 图片分类方法和装置、机器人 |
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN109840584B (zh) * | 2017-11-24 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 基于卷积神经网络模型的图像数据分类方法及设备 |
CN108009592A (zh) * | 2017-12-15 | 2018-05-08 | 云南大学 | 一种糖尿病性视网膜图像自动分类方法 |
CN109740482A (zh) * | 2018-12-26 | 2019-05-10 | 北京科技大学 | 一种图像文本识别方法和装置 |
CN110309707A (zh) * | 2019-05-08 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习的咖啡果实成熟度的识别方法 |
CN116959477A (zh) * | 2023-09-19 | 2023-10-27 | 杭州爱华仪器有限公司 | 一种基于卷积神经网络的噪声源分类的方法及装置 |
CN116959477B (zh) * | 2023-09-19 | 2023-12-19 | 杭州爱华仪器有限公司 | 一种基于卷积神经网络的噪声源分类的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2017166586A1 (zh) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868785A (zh) | 基于卷积神经网络的图片鉴别方法及系统 | |
JP6159489B2 (ja) | 顔認証方法およびシステム | |
Chen et al. | The application of a convolution neural network on face and license plate detection | |
WO2021248733A1 (zh) | 应用双分支三维卷积模型的人脸活体检测系统、终端及存储介质 | |
CN107256246A (zh) | 基于卷积神经网络的印花织物图像检索方法 | |
CN107657204A (zh) | 深层网络模型的构建方法及人脸表情识别方法和系统 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111310604A (zh) | 一种物体检测方法、装置以及存储介质 | |
CN110414600A (zh) | 一种基于迁移学习的空间目标小样本识别方法 | |
CN106909909A (zh) | 一种基于共享卷积特征的人脸检测与对齐方法 | |
CN104463194A (zh) | 一种人车分类方法及装置 | |
Raparthi et al. | Machine Learning Based Deep Cloud Model to Enhance Robustness and Noise Interference | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Manzari et al. | A robust network for embedded traffic sign recognition | |
CN113902753A (zh) | 基于双通道和自注意力机制的图像语义分割方法及系统 | |
Liu et al. | Extracting geometric and semantic point cloud features with gateway attention for accurate 3D object detection | |
Chen et al. | Research on object detection algorithm based on multilayer information fusion | |
CN114359689B (zh) | 一种动态目标的检测与跟踪方法 | |
Han et al. | Deltaframe-bp: An algorithm using frame difference for deep convolutional neural networks training and inference on video data | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及系统 | |
CN113537013A (zh) | 一种多尺度自注意力特征融合的行人检测方法 | |
TW202117609A (zh) | 具有快速逐點迴旋的高效推斷 | |
Zhou et al. | Design of lightweight convolutional neural network based on dimensionality reduction module | |
CN111242101A (zh) | 一种基于时空上下文关联的行为识别方法 | |
Liu et al. | Lost-Found Item Net for Classification Based on Inception-Resnet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20180309 |
|
AD01 | Patent right deemed abandoned |