CN107798344A - 图像识别方法及装置、计算机可读介质 - Google Patents
图像识别方法及装置、计算机可读介质 Download PDFInfo
- Publication number
- CN107798344A CN107798344A CN201710963258.5A CN201710963258A CN107798344A CN 107798344 A CN107798344 A CN 107798344A CN 201710963258 A CN201710963258 A CN 201710963258A CN 107798344 A CN107798344 A CN 107798344A
- Authority
- CN
- China
- Prior art keywords
- image
- algorithm
- dimension
- neural network
- artificial neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像识别方法及装置、计算机可读介质。根据实施例的图像识别方法利用人工神经网络来识别在原始图像中是否包含目标图像,包括:轮廓信息获取操作(S1),利用所述人工神经网络的降维算法,从所述原始图像中获取该原始图像的全局轮廓信息;目标图像区域获取操作(S2),根据所述全局轮廓信息和所述目标图像的样本,从所述原始图像中获取与所述目标图像相似的图像区域作为目标图像区域;图像识别操作(S3),针对获取的所述目标图像区域,利用所述目标图像的所述样本,进行基于所述人工神经网络的升维算法的图像识别。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种利用人工神经网络技术的图像识别方法及装置、计算机可读介质。
背景技术
随着计算机技术尤其是人工智能的快速发展,人工神经网络技术被越来越多地应用于诸多技术领域。近年,尤其在图像识别技术中,人工神经网络技术(例如,bp神经网络技术、深度学习技术、模板匹配技术等)正不断得到广泛应用。
但是,在实现本发明的过程中,本发明人发现在现有技术中至少存在如下问题。例如,在现有应用于图像识别的人工神经网络技术中,由于并没有考虑到先验知识,而容易将图像细节当做特征,有时会导致图像过拟合而影响图像识别的精度。而且,对整个原始图像进行基于人工神经网络(尤其是全连接神经网络)的图像识别会产生很大运算量。因此,如何能够在降低运算量的同时还提高图像识别精度一直是困扰本领域技术人员的一个课题。
发明内容
有鉴于此,本公开的目标至少部分地在于提供一种能够在相对小的计算量下相对准确地识别图像的图像识别方法及装置、计算机可读介质。
本公开的一个方面提供了一种图像识别方法,利用人工神经网络来识别在原始图像中是否包含目标图像,该方法包括:轮廓信息获取操作,人工神经网络的降维算法,从所述原始图像中获取该原始图像的全局轮廓信息;目标图像区域获取操作,根据所述全局轮廓信息和所述目标图像的样本,从所述原始图像中获取与所述目标图像相似的图像区域作为目标图像区域;图像识别操作,针对获取的所述目标图像区域,利用所述目标图像的所述样本,进行基于所述人工神经网络的升维算法的图像识别。
根据本公开一个方面的图像识别方法,所述目标图像区域获取操作包括:将获取的所述全局轮廓信息与所述目标图像的样本的轮廓信息做卷积运算;从所述原始图像中获取出经所述卷积运算所得的值大于规定阈值的图像区域作为所述目标图像区域。
根据本公开一个方面的图像识别方法,所述降维算法是指所述人工神经网络中的隐藏层的维数即神经元数量小于输入层的维数即神经元数量的算法,所述升维算法是指所述人工神经网络中的所述隐藏层的维数即神经元数量大于所述输入层的维数即神经元数量的算法。
根据本公开一个方面的图像识别方法,所述降维算法是基于稀疏编码的算法。
根据本公开一个方面的图像识别方法,在所述基于稀疏编码的算法中,隐藏层对来自输入层的信息进行压缩,而在输出层进行解压缩。
根据本公开一个方面的图像识别方法,所述升维算法是基于卷积神经网络的算法。
根据本公开一个方面的图像识别方法,所述卷积神经网络是全连接卷积神经网络。
根据本公开一个方面的图像识别方法,所述图像识别操作还包括:在所述图像识别的输出结果为相似度概率大于规定概率值时,识别为在所述原始图像中包含所述目标图像。
本公开的另一个方面提供了一种图像识别装置,利用人工神经网络来识别在原始图像中是否包含目标图像,该图像识别装置包括:轮廓信息获取单元,述人工神经网络的降维算法,从所述原始图像中获取该原始图像的全局轮廓信息;目标图像区域获取单元,根据所述全局轮廓信息和所述目标图像的样本,从所述原始图像中获取与所述目标图像相似的图像区域作为目标图像区域;图像识别单元,针对获取的所述目标图像区域,利用所述目标图像的所述样本,进行基于所述人工神经网络的升维算法的图像识别。
本公开的另一个方面提供了一种图像识别装置,利用人工神经网络来识别在原始图像中是否包含目标图像,该图像识别装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本公开的上述一个方面的图像识别方法。
本公开的另一方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行本公开的上述一个方面的图像识别方法。
根据本公开的实施例,通过模拟人眼的处理流程(例如,在观察事物时,先观察一个全局,然后再针对性地去观察细节),先降维再升维,这样,可以至少部分地解决因现有基于人工神经网络的图像识别的图像过拟合而影响图像识别的精度、以及运算量较大的课题,并由此可以实现在降低运算量的同时还提高图像识别精度的这一有益技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了本公开实施例的人工神经网络的示意图,其中(a)为单神经元的示意图,(b)为多个神经元构成的神经网络的示意图;
图2示意性示出了本公开实施例的图像识别方法的流程图;
图3示意性示出了本公开实施例的人工神经网络的降维算法(稀疏编码)的神经网络结构的图;
图4示意性示出了本公开实施例的图像识别方法的目标图像区域获取操作的流程图;
图5示意性示出了本公开实施例的图像识别装置的框图;
图6示意性示出了本公开另一实施例的图像识别装置的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种图像识别方法,利用人工神经网络来识别在原始图像中是否包含目标图像。
首先,利用图1来简单说明人工神经网络。
图1示意性示出了本公开实施例的人工神经网络的示意图。
如图1所示,人工神经网络是由大量的神经元N(或称作“节点”)相互连接而成。每个神经元N代表一种特定的输出函数,称为激活函数(activation function)。每两个节点之间的连接代表加权值,称为权重(weight)。不同的权重和激活函数,则会导致神经网络不同的输出。
图1中(a)为单神经元的示意图,(b)为多神经元构成的神经网络的示意图。
如图1的(a)所示,in1、in2、in3等代表输入向量(例如,输入图像的像素),其中输入向量中还可以包括一个偏置(bias)作为误差补偿,N为神经元即激活函数,当激活函数被激活时将输入向量in1、in2、in3进行加权汇总而输出out,然后将输出out传递给其他神经元。重复上述过程,直到最后一个神经元被激活。从而完成识别处理(例如,识别输入图像是何图像)。
如图1的(b)所示,其是将上述图1的(a)所示的单神经元N组织起来而形成了神经网络。ins代表多个输入向量,N为神经元即激活函数,out为该神经网络的输出。在此所示的该神经网络是三层神经网络结构,包括:输入层IL(Input Layer)、隐藏层HL(HiddenLayer)和输出层OL(Output Layer)。输入向量ins在神经元N的链接中传输、分析、权衡,最终形成输出结果out。其中,每个层可以由单个或多个神经元N构成,每一层的输出将作为下一层的输入。隐藏层HL是输入层IL和输出层OL之间多个神经元N和链接构成的层,其可以是单层,也可以为多个层。
下面,结合附图来详细说明本公开实施例的图像识别方法。
图2示意性示出了本公开实施例的图像识别方法的流程图。
如图2所示,本公开的实施例的图像识别方法是利用人工神经网络(例如,包括BP神经网络等)来识别在原始图像P中是否包含目标图像T。
首先,在轮廓信息获取操作S1中,利用上述人工神经网络的降维算法(在此,优选稀疏编码(Sparse Coding)算法),从上述原始图像P中获取该原始图像P的全局轮廓信息Pp。
接着,在目标图像区域获取操作S2中,根据上述全局轮廓信息Pp和上述目标图像T的样本,从上述原始图像P中获取与上述目标图像T相似的图像区域作为目标图像区域Pc。
然后,在图像识别操作S3中,针对获取的上述目标图像区域Pc,利用上述目标图像T的上述样本,进行基于上述人工神经网络的升维算法(在此,优选卷积神经网络(CNN),更优选全连接卷积神经网络(FCN))的图像识别,最终识别出在原始图像P中是否包含目标图像T。
在此,上述降维算法是指就图1(b)所示的神经网络中,其中隐藏层HL的维数即神经元N的个数小于输入层IL的维数即神经元N的个数的神经网络算法,上述升维算法是指就图1(b)所示的神经网络中,其中隐藏层HL的维数即神经元N的个数小于输入层IL的维数即神经元N的个数的神经网络算法。
由此,通过模拟人眼的处理流程(例如,在观察事物时,先观察一个全局,然后再针对性地去观察细节),即通过人工神经网络的先降维再升维的处理,从而至少部分地解决了现有基于人工神经网络的图像识别的图像过拟合而影响图像识别的精度、以及运算量较大的课题,并由此实现了在降低运算量的同时还提高图像识别精度的这一有益技术效果。
下面,参照图3,以稀疏编码(Sparse Coding)算法为例,对人工神经网络的降维算法进行说明。
图3示意性示出了本公开实施例的人工神经网络的降维算法(稀疏编码算法)的神经网络结构的图。
稀疏编码算法是一种无监督学习方法,其使用的是BP神经网络算法。如图3所示,其为三层结构。输入层IL中的神经元X1至X6代表各个输入向量,输入层IL中的神经元+1代表在输入层附加的偏置。隐藏层HL中的神经元+1代表在隐藏层附加的偏置,隐藏层HL中的其他神经元代表输入层IL与输出层OL之间的激活函数。输出层OL中的X^1至X^6代表各个输出向量。其中,上述隐藏层HL的维数即神经元的数量小于上述输入层IL和上述输出层0L的维数即神经元的数量。稀疏编码算法的目标是得到HW,b(X)≈X,即要求输出尽可能等于输入。其中,H代表输出向量,X代表输入向量,W表示权重,b表示偏置。在此,上述隐藏层HL必须满足一定的稀疏性,即隐藏层HL不能携带太多信息。因此,上述隐藏层HL要对来自上述输入层IL的信息进行压缩,而在上述输出层进行解压缩。虽然在这样的稀疏编码算法的处理过程中会丢失部分信息,但通过神经网络的训练能够使丢失的信息尽量少。例如,假设原图像256×256个像素,若用一维矩阵进行描述,则是256×256个特征,经过稀疏编码后可以成为例如50×50个特征。
由此,通过稀疏编码这样的降维算法来获取全局轮廓信息,可以大大降低运算量。
下面,利用图4对上述目标图像区域获取操作S2进行具体说明。
图4示意性示出了本公开实施例的图像识别方法的目标图像区域获取操作的流程图。
如图4所示,首先,在卷积运算操作S2-1中,将通过上述轮廓信息获取操作S1获得的上述原始图像P的上述全局轮廓信息Pp与上述目标图像T的样本的轮廓信息Tp做卷积运算。具体而言,将上述目标图像T的样本的上述轮廓信息Tp作为窗口即卷积核,在上述原始图像P的上述全局轮廓信息Pp中滑动并进行卷积运算。
接着,在卷积结果判断操作S2-2中,判断经上述卷积运算操作S2-1所得到的卷积值是否大于规定阈值(例如,8),这里,大于该规定阈值则意味着当前被卷积运算着的上述原始图像P的上述全局轮廓信息Pp与上述目标图像T的样本的上述轮廓信息Tp大致匹配即相似。故,当经上述卷积运算操作S2-1所得到的卷积值大于规定阈值时,进入目标图像区域裁剪操作S2-3,当经上述卷积运算操作S2-1所得到的卷积值不大于规定阈值时,返回卷积运算操作S2-1,在上述原始图像P的上述全局轮廓信息Pp中滑动上述窗口,继续进行卷积运算。
在目标图像区域裁剪操作S2-3中,从上述原始图像P中裁剪出经上述卷积结果判断操作S2-2判断为大于上述规定阈值的图像区域作为目标图像区域Pc,进入下一操作(即,图像识别操作S3)。
由此,通过全局轮廓信息Pp与目标图像T的样本的轮廓信息Tp的卷积运算来获得目标图像区域Pc,以便后续对图像细节进行上述升维算法,从而可以大大降低运算量,并在确定具体目标区域后才进行后续细节的识别处理,从而提高识别精度和效率。
这样,在最后的上述图像识别操作S3中,针对上述目标图像区域裁剪操作S2-3所裁剪出的上述目标图像区域Pc,利用上述目标图像T的样本,进行基于人工神经网络的升维算法的图像识别。
在此,上述升维算法可以是现有技术中常用的基于卷积神经网络(CNN)的算法,更优选全连接卷积神经网络(FCN)的算法。具体而言,可以通过卷积神经网络(CNN)算法或全连接卷积神经网络(FCN)算法,针对裁剪出的上述目标图像区域Pc,利用上述目标图像T的样本进行训练和图像识别,在上述图像识别的输出结果为相似度概率大于规定概率值(例如,70%)时,识别为在上述原始图像P中包含上述述目标图像T。
由此,通过在确定了具体目标区域后才进行细节上的常规的图像识别处理,从而实现了在降低运算量的同时还提高了图像识别精度的这一有益技术效果。
以上的详细描述通过使用方框图、流程图和/或示例,已经阐述了本公开的图像识别方法的实施例。在这种方框图、流程图和/或示例包含一个或多个功能和/或操作的情况下,本领域技术人员应理解,这种方框图、流程图或示例中的每一功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中,本公开的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而,本领域技术人员应认识到,这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中,实现为在一台或多台计算机上运行的一个或多个计算机程序(例如,实现为在一台或多台计算机系统上运行的一个或多个程序),实现为在一个或多个处理器上运行的一个或多个程序(例如,实现为在一个或多个微处理器上运行的一个或多个程序),实现为固件,或者实质上实现为上述方式的任意组合,并且本领域技术人员根据本公开,将具备设计电路和/或写入软件和/或固件代码的能力。此外,本领域技术人员将认识到,本公开所述主题的机制能够作为多种形式的程序产品进行分发,并且无论实际用来执行分发的信号承载介质的具体类型如何,本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于:可记录型介质,如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等;以及传输型介质,如数字和/或模拟通信介质(例如,光纤光缆、波导、有线通信链路、无线通信链路等)。
下面,以图5为例,说明一种以硬件方式实现了上述图像识别方法的图像识别装置。
图5示意性示出了本公开的另一方面的实施例的与上述图像识别方法对应的图像识别装置的框图。
如图5所示,图像识别装置400包括轮廓信息获取模块410、目标图像区域获取模块420和图像识别模块430。
轮廓信息获取模块410,利用上述人工神经网络的降维算法(在此,优选稀疏编码(Sparse Coding)算法),从上述原始图像P中获取该原始图像P的全局轮廓信息Pp。
目标图像区域获取模块420,根据上述全局轮廓信息Pp和上述目标图像T的样本,从上述原始图像P中获取与上述目标图像T相似的图像区域作为目标图像区域Pc。
图像识别模块430,针对获取的上述目标图像区域Pc,利用上述目标图像T的上述样本,进行基于上述人工神经网络的升维算法(在此,优选卷积神经网络(CNN),更优选全连接卷积神经网络(FCN))的图像识别,最终识别出在原始图像P中是否包含目标图像T。
在此,上述降维算法是指就图1(b)所示的神经网络中,其中隐藏层HL的维数即神经元N的个数小于输入层IL的维数即神经元N的个数的神经网络算法,上述升维算法是指就图1(b)所示的神经网络中,其中隐藏层HL的维数即神经元N的个数小于输入层IL的维数即神经元N的个数的神经网络算法。
由此,通过模拟人眼的处理流程(例如,在观察事物时,先观察一个全局,然后再针对性地去观察细节),即通过人工神经网络的先降维再升维的处理,从而解决了现有基于人工神经网络的图像识别的图像过拟合而影响图像识别的精度、以及运算量较大的课题,并由此实现了在降低运算量的同时还提高图像识别精度的这一有益技术效果。
下面,以图6为例,说明另一种以硬件方式实现了上述图像识别方法的图像识别装置。
图6示意性示出了本公开的另一方面实施例的图像识别装置的方框图。
如图6所示,图像识别装置200可以包括输入设备201(例如,键盘、鼠标、操作杆等)、输出设备202(例如,显示器等)、处理器203(例如,CPU等)、和存储器204(例如,硬盘HDD、只读存储器ROM等)。此外,还可以包括用虚线表示的记录介质205(例如,磁盘、光盘CD-ROM、USB等)。
此外,该图6仅是一个示例,并不限定本公开的技术方案。其中,图像识别装置200中的各个部分均可以是一个或多个,例如,处理器203既可以是一个也可以是多个处理器。
这样,不言而喻,本公开实施例的上述图像识别方法的上文参考流程图(图2、图4等)描述的过程可以被实现为计算机软件程序。在此,该计算机软件程序也可以为一个或多个。
于是,例如,上述计算机软件程序存储于上述图像识别装置200的作为存储装置的存储器203中,通过执行该计算机软件程序,从而使上述图像识别装置200的一个或多个处理器203执行本公开的图2、图4等流程图所示的上述图像识别方法,以利用人工神经网络来进行上述图像识别。
此外,作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的图像识别装置200中所包含的(例如图6中的记录介质205);也可以是单独存在,而未装配入该图像识别装置200中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该装置执行上述图2、4等所示的上述图像识别方法。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种图像识别方法,利用人工神经网络来识别在原始图像中是否包含目标图像,
所述方法包括:
轮廓信息获取操作,利用所述人工神经网络的降维算法,从所述原始图像中获取该原始图像的全局轮廓信息;
目标图像区域获取操作,根据所述全局轮廓信息和所述目标图像的样本,从所述原始图像中获取与所述目标图像相似的图像区域作为目标图像区域;
图像识别操作,针对获取的所述目标图像区域,利用所述目标图像的所述样本,进行基于所述人工神经网络的升维算法的图像识别。
2.根据权利要求1所述的图像识别方法,其中:
所述目标图像区域获取操作包括:
将获取的所述全局轮廓信息与所述目标图像的样本的轮廓信息做卷积运算;
从所述原始图像中获取出经所述卷积运算所得的值大于规定阈值的图像区域作为所述目标图像区域。
3.根据权利要求1所述的图像识别方法,其中:
所述降维算法是指所述人工神经网络中的隐藏层的维数即神经元数量小于输入层的维数即神经元数量的算法,
所述升维算法是指所述人工神经网络中的所述隐藏层的维数即神经元数量大于所述输入层的维数即神经元数量的算法。
4.根据权利要求1所述的图像识别方法,其中:
所述降维算法是基于稀疏编码的算法。
5.根据权利要求4所述的图像识别方法,其中:
在所述基于稀疏编码的算法中,隐藏层对来自输入层的信息进行压缩,而在输出层进行解压缩。
6.根据权利要求1所述的图像识别方法,其中:
所述升维算法是基于卷积神经网络的算法。
7.根据权利要求6所述的图像识别方法,其中:
所述卷积神经网络是全连接卷积神经网络。
8.根据权利要求1所述的图像识别方法,其中:
所述图像识别操作还包括:在所述图像识别的输出结果为相似度概率大于规定概率值时,识别为在所述原始图像中包含所述目标图像。
9.一种图像识别装置,利用人工神经网络来识别在原始图像中是否包含目标图像,
所述图像识别装置包括:
轮廓信息获取单元,利用所述人工神经网络的降维算法,从所述原始图像中获取该原始图像的全局轮廓信息;
目标图像区域获取单元,根据所述全局轮廓信息和所述目标图像的样本,从所述原始图像中获取与所述目标图像相似的图像区域作为目标图像区域;
图像识别单元,针对获取的所述目标图像区域,利用所述目标图像的所述样本,进行基于所述人工神经网络的升维算法的图像识别。
10.一种图像识别装置,利用人工神经网络来识别在原始图像中是否包含目标图像,所述图像识别装置包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1-8中任一项所述的图像识别方法。
11.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行权利要求1-8中任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963258.5A CN107798344B (zh) | 2017-10-16 | 2017-10-16 | 图像识别方法及装置、计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963258.5A CN107798344B (zh) | 2017-10-16 | 2017-10-16 | 图像识别方法及装置、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798344A true CN107798344A (zh) | 2018-03-13 |
CN107798344B CN107798344B (zh) | 2021-03-30 |
Family
ID=61533224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710963258.5A Active CN107798344B (zh) | 2017-10-16 | 2017-10-16 | 图像识别方法及装置、计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798344B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767773A (zh) * | 2019-11-18 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 图像识别的方法、装置、计算设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826157A (zh) * | 2010-04-28 | 2010-09-08 | 华中科技大学 | 一种地面静止目标实时识别跟踪方法 |
US20160328630A1 (en) * | 2015-05-08 | 2016-11-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
CN106339717A (zh) * | 2016-08-17 | 2017-01-18 | 衢州学院 | 一种基于混合多尺度特征模型的活立木快速识别方法 |
-
2017
- 2017-10-16 CN CN201710963258.5A patent/CN107798344B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826157A (zh) * | 2010-04-28 | 2010-09-08 | 华中科技大学 | 一种地面静止目标实时识别跟踪方法 |
US20160328630A1 (en) * | 2015-05-08 | 2016-11-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
CN106339717A (zh) * | 2016-08-17 | 2017-01-18 | 衢州学院 | 一种基于混合多尺度特征模型的活立木快速识别方法 |
Non-Patent Citations (4)
Title |
---|
JONATHAN LONG ET AL.: "Fully Convolutional Networks for Semantic Segmentation", 《HTTPS://ARXIV.ORG/PDF/1605.06211.PDF》 * |
YOUSONG ZHU ET AL.: "CoupleNet:Coupling Global Structure with Local Parts for Object Detection", 《HTTPS://ARXIV.ORG/PDF/1708.02863.PDF》 * |
王璟尧: "基于SDCNN的人脸识别研究", 《中国优秀硕士学位论文全文数据库 信息科技》 * |
胡振邦: "基于Latent_SVM的人体目标检测与跟踪方法研究", <中国博士学位论文全文数据库 信息科技辑> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767773A (zh) * | 2019-11-18 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 图像识别的方法、装置、计算设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107798344B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599492B (zh) | 图像分割模型的训练方法、装置、电子设备及存储介质 | |
CN111680721B (zh) | 利用硬性注意力的准确且可解释的分类 | |
US11960843B2 (en) | Multi-module and multi-task machine learning system based on an ensemble of datasets | |
CN111695415B (zh) | 图像识别方法及相关设备 | |
CN110059740A (zh) | 一种针对嵌入式移动端的深度学习语义分割模型压缩方法 | |
US10719693B2 (en) | Method and apparatus for outputting information of object relationship | |
US20190156203A1 (en) | Neural network training method and device | |
EP3327628A1 (en) | Method and apparatus for recognizing an object | |
KR102011788B1 (ko) | 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법 | |
CN112561060B (zh) | 神经网络训练方法及装置、图像识别方法及装置和设备 | |
CN107578034A (zh) | 信息生成方法和装置 | |
RU2665273C2 (ru) | Обучаемые визуальные маркеры и способ их продуцирования | |
CN107292229A (zh) | 一种图像识别方法和装置 | |
CN110168572A (zh) | 信息处理方法、信息处理装置、计算机可读存储介质 | |
CN111160225B (zh) | 基于深度学习的人体解析方法和装置 | |
CN108491764A (zh) | 一种视频人脸情绪识别方法、介质及设备 | |
CN109190750A (zh) | 基于对抗生成网络的小样本生成方法及装置 | |
CN109447096A (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN114399808A (zh) | 一种人脸年龄估计方法、系统、电子设备及存储介质 | |
CN108154153A (zh) | 场景分析方法和系统、电子设备 | |
CN113920583A (zh) | 细粒度行为识别模型构建方法及系统 | |
CN107798344A (zh) | 图像识别方法及装置、计算机可读介质 | |
KR20200027080A (ko) | 전자 장치 및 그 제어 방법 | |
CN112241761A (zh) | 模型训练方法、装置和电子设备 | |
KR102072757B1 (ko) | 딥 러닝을 이용한 이종 센서 정보 융합 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |