CN108319894A - 基于深度学习的水果识别方法及装置 - Google Patents
基于深度学习的水果识别方法及装置 Download PDFInfo
- Publication number
- CN108319894A CN108319894A CN201711458776.8A CN201711458776A CN108319894A CN 108319894 A CN108319894 A CN 108319894A CN 201711458776 A CN201711458776 A CN 201711458776A CN 108319894 A CN108319894 A CN 108319894A
- Authority
- CN
- China
- Prior art keywords
- image
- subgraph
- fruit
- deep learning
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
- G06T2207/30188—Vegetation; Agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的水果识别方法及装置,首先选择目标水果图像库,然后提取图像库中的所有训练图像的特征,再将获得的所有训练图像的特征向量输入深度学习模型,对深度学习模型进行训练;利用训练后的深度学习模型对用户输入的图像进行识别,判断其中是否包含目标水果并且识别出所有目标水果在图像中的具体位置。相较于现有技术,本发明在传统深度学习模型的基础上进行修改、训练并对水果图像进行识别,所得到的水果图像数据识别不仅具有更高的准确性,而且包含了诸如位置信息的其他更多信息,从而获得更好的识别效果。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种基于深度学习的水果识别方法及装置。
背景技术
深度学习的概念源于人工神经网络的研究,深度学习是机器学习中一种基于对数据进行表征学习的方法,其观测值(例如某种图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列特定形状的区域等。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
传统农业上采摘水果需要耗费大量人力物力,而采用机器自动化采摘技术必将首先面临如何识别到自然环境下的水果精确位置。因此,基于深度学习模型的训练以精确识别水果位置的技术显得尤为必要,以便解决精确识别水果位置的问题。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明是鉴于以上技术问题所提出的,提供一种基于深度学习的水果识别方法及装置,能够实现在判断图形库中是否包含目标水果的基础上精确识别到目标水果的具体坐标,大大提高了识别的精准质量。
根据本发明实施例的第一方面,提供了一种基于深度学习的水果识别方法,所述方法包括:
选择目标水果图像库;
提取所述图像库中的所有训练图像的特征;
将所述提取的训练图像的特征输入深度学习模型,对所述深度学习模型进行训练;
接收用户输入的图像;
用滑动窗口切割所述用户输入的图像,将其分割成多个子图像;
利用深度学习模型对所述多个子图像进行识别,判断其中是否包含目标水果;输出所有判定为包含目标水果的子图像原点坐标。
根据本发明实施例的第二方面,提供了一种如第一方面所述的基于深度学习的水果识别方法,其中,选择目标水果图像库之后,还包括:
对所述图像库中的训练图像进行第一预处理。
根据本发明实施例的第三方面,提供了一种如第二方面所述的基于深度学习的水果识别方法,其中,所述接收用户输入的图像之后,还包括:
对用户输入的图像进行第二预处理。
根据本发明实施例的第四方面,提供了一种如第三方面所述的基于深度学习的水果识别方法,其中,所述用滑动窗口切割经过第二预处理的用户输入的图像将其分割成多个子图像,包括以下步骤:
确定所述子图像的大小m*m和滑动窗口步长l;
根据子图像的大小m和滑动窗口步长l,切割经过第二预处理的用户输入的图像,获得多个子图像;
将获得的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征。
根据本发明实施例的第五方面,提供了一种如第四方面所述的基于深度学习的水果识别方法,其中,
所述子图像的大小m*m和滑动窗口步长l,所述m和l的单位定义为像素。
根据本发明实施例的第六方面,提供了一种如第一至第五任一方面所述的基于深度学习的水果识别方法,其中,所述目标水果图像库中包含两类训练图像,一类包含目标水果,设置唯一的第一标签;另一类不包含目标水果,设置唯一的第二标签。根据本发明实施例的第七方面,提供了一种如第六方面所述的基于深度学习的水果识别方法,其中,所述提取图像库中的所有训练图像特征的方法,包括:
获取图像在颜色空间的值的视觉特征算法,或者获取图像形状的特征值的视觉特征算法;
具体特征值所要采用的方式可以是一种算法,或者多种算法的组合。
根据本发明实施例的第八方面,提供了一种如第七方面所述的基于深度学习的水果识别方法,其中,所述深度学习模型的最后一个全连接层为至少两个输出。
根据本发明实施例的第九方面,提供了一种如第八方面所述的基于深度学习的水果识别方法,其中,所述提取多个子图像特征的数学算法为:
aij=f(pi,j(x,y),m,n);
其中,aij表示横排第i个竖排第j个子图像的特征向量,f为提取子图像的特征的函数,pij表示子图像aij的原点,pi,j(x,y)为子图像aij在所处的用户输入的图像P中的像素坐标(x,y),m为子图像aij的大小,n表示获取子图像aij是否需要padding用户输入的图像P。
根据本发明实施例的第十方面,提供了一种如第九方面所述的基于深度学习的水果识别方法,其中,所述每个子图像对应的输出结果的数学表达为:
Vij=D(aij);
其中D表示深度学习模型,aij表示表示横排第i个竖排第j个子图像的特征向量,vij可以是一个包含两个元素的一维向量表示经过深度学习模型的计算该子图像中包含目标水果和不包含目标水果的概率。
根据本发明实施例的第十一方面,提供了一种如第十方面所述的基于深度学习的水果识别方法,其中,判断识别图像是否包含目标水果的方法,包括:
对多个子图像依次判断每个子图像中包含目标水果的概率是否大于预定的阈值;
若单个子图像输出的包含目标水果的概率小于预定的阈值,则判定该子图像中不包含目标水果;
否则,判定该子图像中包含目标水果,输出该子图像的原点坐标;
最终,将所有判定为包含目标水果的子图像原点坐标输出,就识别得到针对用户输入图像中的所有目标水果的位置信息。
根据本发明实施例的第十二方面,提供了一种基于深度学习的水果识别装置,所述装置包括:
水果图像库接收单元,用于接收目标水果图像库中的图像;
特征提取单元,用于提取图像特征,获得图像的特征向量;
深度学习模型训练单元,用于训练深度学习模型获得优化后的深度学习模型和它的网络参数;
图像接收单元,用于接收用户输入的图像;
子图像构建单元,用于将所述用户输入的图像切割成多个子图像;
识别单元,用于对所述切割出的多个子图像进行识别运算,获得用户输入的图像中所有目标水果的位置信息。
根据本发明实施例的第十三方面,提供了一种如第十二方面所述的基于深度学习的水果识别装置,其特征在于,还包括:
训练图像预处理单元,用于对选定图像库中的所有训练图像进行第一预处理。
根据本发明实施例的第十四方面,提供了一种如第十三方面所述的基于深度学习的水果识别装置,其特征在于,还包括:
用户图像预处理单元,用于截取用户输入图像中的有效区域和对图像进行第二预处理,获得经过预处理的图像P。
根据本发明实施例的第十五方面,提供了一种如第十四方面所述的基于深度学习的水果识别装置,其中,所述特征提取单元,包括:
特征模型提取子单元,用于采用视觉特征算法对图像库中的图像进行视觉特征提取,并获得相应的特征。
根据本发明实施例的第十六方面,提供了一种如第十五方面所述的基于深度学习的水果识别装置,其中,所述子图像构建单元,包括:
子图像参数确定子单元,用于确定切割出的子图像的大小以及计算子图像个数;
获取子图像子单元,用于根据所述子图像参数确定子单元确定的参数,对用户输入的图像进行切割,获得多个子图像;
子图像特征提取子单元,用于对所述获取子图像子单元中得到的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征向量。
根据本发明实施例的第十七方面,提供了一种如第十六方面所述的基于深度学习的水果识别装置,其特征在于,还包括:
子图像识别子单元,用于识别每个子图像中是否包含目标水果;
输出子单元,用于将所述子图像识别子单元中输出的所有的识别结果为包含目标水果的子图像的位置信息输出。
本发明的有益效果在于:由于水果图像识别的复杂性及不稳定性,本方法通过基于深度学习模型进行修改、优化训练,不仅能够识别出图像库里是否包含某种目标水果图像,解决了“是,不是”的问题;还在深度学习之后同时识别出目标水果在图片库中的具体位置,进一步解决了“在哪儿”的问题。实现了可以精确定位识别对象的坐标,大大提高了后续识别精准的质量。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件或组件的存在,但并不排除一个或更多个其它特征、整件或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明的进一步的理解,其构成了说明书的一部分,例示了本发明的优选实施方式,并与文字说明一起用来解释本发明的原理。
在附图中:
图1是本发明实施例的基于深度学习的水果识别方法的流程图;
图2是本发明另一实施例的基于深度学习的水果识别方法的流程图;
图3是本发明实施例的将经过预处理的用户输入的图像分割多个子图像的流程图;
图4是本发明实施例的基于滑动窗口机制按行滑动的示意图;
图5是本发明实施例的基于滑动窗口机制按列滑动的示意图;
图6是本发明实施例的基于滑动窗口机制将经过预处理的用户输入的图像切割成多个子图像的示意图;
图7是本发明实施例的基于深度学习的水果识别装置的示意图;
图8是本发明另一实施例的基于深度学习的水果识别装置的示意图。
具体实施方式
参照附图,下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1为本发明实施例的一种基于深度学习的水果识别方法实施例的流程图,图2为本发明另一实施例的一种基于深度学习的水果识别方法实施例的流程图。其中,如图2所示,该基于深度学习的水果识别方法包括如下步骤:
步骤S101:选择目标水果图像库。
本步骤中,首先选择事先收集的训练图像库,事先收集的训练图像库是与需要识别的目标水果的图像主题内容一致或相反的多个训练图像的集合。
本申请的目的在于水果图像的识别,因此以水果为例,将训练图像分为两类,一类为包含单个目标水果的图像,该类图像可以是从各种不同角度、不同光照、不同背景下等各种环境下获得的水果图像;另一类为不包含目标水果的任意图像。
将图像库中的给每张图像都设置一个唯一的标签,用于表示图像中是否包含目标水果。所有包含目标水果的图像的标签是相同的,所有不包含目标水果的图像的标签是相同。
可以理解的是,如果图像中包含目标水果,则该图像的标签设为label1,如果图像中不包含目标水果,则该图像标签设为label0。
训练图像库中的图像可以是通过手机、相机等终端设备拍照保存的图像,也可以是从摄像机等设备拍摄的视频中截取保存的图像。
步骤S102:对图像库中的所有训练图像进行预处理。
通过步骤S101,已经选择了目标水果的图像库,获得所有训练图像,接下来需要对图像库中的所有训练图像进行预处理。
对图像进行预处理,是为了消除图像中的无关信息,恢复有用信息增强有关信息的可识别性,从而提高后续步骤的可靠性,以达到更好的识别效果。在本发明实施例的一个实施方式中,对图像进行预处理是对训练图像进行增强,可以是增强图像的对比度,也可以是对图像进行平滑或者锐化,以上为成熟的图像处理方法,此处不再赘述。
具体选取的图像增强的方法与目标水果的种类有关,也与训练图像所拍摄的天气条件有关。例如,当训练图像拍摄于夜晚,图像中存在大量噪声,需要对图像进行平滑去噪来提高图像的清晰程度;现有的成熟的对图像进行平滑处理的算法包括:邻域平均法、中值滤波法、多图象平均法,采用取平均值或中值的方法来模糊噪声,可以采用以上任意一种算法来实现。
在本实施中,为了保证所有的经过预处理的训练图像都适用于统一的深度学习模型,需要对所有的训练图像采用统一的方法进行图像增强,获得经过预处理的训练图像。
步骤S103:提取图像库中的所有经过预处理的训练图像的特征。
通过步骤S101和S102,已经获得所有经过预处理的训练图像,接下来需要对图像库中的所有预处理的训练图像提取图像的视觉特征。在以下申请中,训练图像均指代经过步骤S102预处理的训练图像。
图像的视觉特征是通过算法提取的一系列数学表达,其输入是整体或者局部图像,输出是相应的特征值。该特征是基于图像提炼出来的能描述图像整体或者局部形状、纹理、颜色等特点的数学表达,一般用向量的形式来表示。
现有技术中的提取图像特征的方法是通过读取图像的信息找出其中能代表训练图像特性的值作为特征,将其存储在向量中称为特征向量,然后将特征向量归一化到预定的大小与比例,获得归一化的训练图像特征向量,以便后续进行识别和比对。
在本申请的一个优选实施例中,本图像特征提取方法用于水果识别,其目标图像为水果图像,在提取特征值时,为了找到能代表训练图像特性的值,可以采用不同视觉特征算法,例如获取图像在颜色空间的值或者获取图像的形状等作为训练图像的特征值。
在读取训练图像在颜色空间中的值时,可以将RGB三通道的值作为特征,也可以是获取图像的LUV色彩空间的值作为特征,也可以是获取图像的HLS色彩空间的值作为特征,或者其他的色彩空间。
在获取训练图像的形状作为特征值时,可以提取训练图像的灰度值。
具体特征值所要采用的方式与集中训练图像的水果种类有关,可以是上述算法的一种或几种算法组合。
例如,训练图像和待识别的图像为柠檬,那么柠檬的形状信息就可以作为一种特征,相应的灰度值就能够将柠檬的形状信息提取出来。另外,提取柠檬的颜色信息,例如RGB三个通道的值也可以作为训练图像的特征,将以上一种或两种特征组合起来就构成训练图像最终可利用的特征,将其保存在特征向量中。然后将特征向量归一化到预定的大小,这样所有特征值都是0均值和单位方差的特征值,使得所有通过不同算法得到的特征值处于同一范围内,进而提高后续步骤的准确性。
步骤S104:训练深度学习模型。
通过步骤S103,已经将图像库中的所有训练图像的特征向量通过算法提取出来,接下来,将步骤S103中获得的所有训练图像的特征向量输入深度学习模型,对深度学习模型进行训练。
在本发明的一个实施例中,深度学习模型包含多个结构层,层与层之间依次连接,上一层的输出将被做为下一层的输入,从而构成一个端到端的结构。
在这里,深度学习模型可以选择GoogleNet/AlexNet/VGG/ResNet等中的任意一种,以上均为现有技术中的成熟的深度学习模型,此处不再赘述,其均在本申请的保护范围之内。
在本发明的一个实施例中,以深度学习模型AlexNet来举例说明。AlexNet是基于ImageNet中上千类别图像的识别,每一类别图像都对应到最后一个全连接层的一个输出,因此AlexNet的最终输出结果是一个包含上千个元素的一维向量。
而在本发明的一个实施例中,图像的类别可以是有两种,一种是包含目标水果的图像,另外一种是不包含目标水果的图像因此,最后一个全连接层只需要有两个输出,在本发明的一个实施例中将AlexNet的最后一个全连接层输出修改为2,其余层保持不变,作为深度学习的模型。在本申请中,仅以两种图像类别为例进行说明,对于不同的图像类别个数,在实施时可根据具体图像类别的个数选择全连接层的输出个数,全连接层的输出个数也不限于2,可以是3或者多个灵活选择,此处不再赘述,其均在本申请保护范围内。
在修改过的深度学习模型AlexNet中,最终的输出结果是一个包含两个元素的一维向量,该两个元素分别代表图像中包含目标水果的概率和图像中不包含目标水果的概率。
在训练深度学习模型时,将从步骤S103中获得的训练图像的特征向量和其对应的标签作为输入,利用预先设定的目标函数对深度学习模型进行训练,得到优化后的深度学习模型,保存优化后的深度学习模型的网络参数。
其中预先设定的目标函数可以是MSE、交叉熵中的任意一种,以上均为现有技术中成熟的算法,此处不再赘述。
利用预先设定的目标函数对深度学习模型进行训练,可以是只训练最后一个全连接层的网络参数而其他层的网络参数固定不变,也可以是对每一层的所有网络参数进行训练,得到新的网络参数。
步骤S105:接收用户输入的图像。
本步骤中,首先接收用户输入的图像,用户可以从终端设备的相册中选择一幅图像输入,也可以通过手机、相机等终端设备拍摄一幅图像并输入。
需要说明的是,本申请的目的在水果图像识别,因此优先考虑用户输入的图像为静态图像,但为了提高本方法的普遍适用性,在本申请的一个实施例中,可以接收用户输入的或者拍摄保存的动态图像,例如视频,但会进行处理,只提取该动态图像的特定帧(如第一帧)作为用户输入的图像,以上均在本申请的保护范围之内。
步骤S106:对用户输入的图像进行预处理。
通过步骤S105,已经接收用户输入的图像,当然,在本发明实施例的一个实施方式中,为了提高识别的效率,可以对用户输入的图像进行预处理。例如,先截取图像中的有效区域,即截取用户输入图像的指定位置大小的区域称为有效输入图像。其中,区域的大小根据输入图像中目标水果的有效区域位置来决定;例如已知所有的目标水果集中位于图像中部,截取用户输入的图像可以选择如第200行至第1500行,第0列至1000列的区域图像为有效输入图像。如果没有已知的目标水果集中的有效区域,也可以保持原有用户输入的图像不变。
另外,为了保证优化后的深度学习模型可以适用于用户输入的图像,需要将用户输入的图像采用与步骤S102中所述的预处理方法一致的方法进行处理,具体请参照上述步骤S102的说明,此处不再赘述,其均在本申请的保护范围之内。通过这一步骤得到图像P。步骤S107:用滑动窗口切割经过预处理的图像P,将其分割成多个子图像。
通过步骤S106,已经得到有效输入图像P,接下来需要对图像P进行切割,以获得多个子图像。
图3为本申请提供的一种基于深度学习的水果识别方法实施例中分割多个子图像的流程图,如图所示,切割有效输入的图像P将其分割成多个子图像可通过以下步骤进行:
步骤S1071:确定所述子图像的大小m*m和滑动窗口步长l。
分割多个子图像,即按照一定的结构、位置及限制条件从图像中分割出多个子图像。在本申请提供的一个实施例中,为了保持图像的结构特点以及方便后续的计算,需要利用滑动窗口的方式对有效输入图像P进行切割。
基于滑动窗口的机制将输入的图像P切割成多个子图像,就需要确定子图像的大小m*m,和滑动窗口的步长l,m和l的单位定义为像素。请参考图4,如图所示,窗口大小为3,步长为1,按行滑动;图5显示了窗口大小为3,步长为1,按列滑动。
为了便于说明,接下来在本申请的一个实施例中都以子图像大小m来表示子图像大小m*m。子图像的大小m和滑动窗口步长l用来确定多个子图像的切割位置。
子图像的大小m用来确定滑动窗口的大小为m,滑动窗口的步长l确定了两个相邻的子图像之间的重叠部分的大小,步长越长,相邻两个子图像之间的重叠部分越少;反之,相邻两个子图像之间的重叠部分越多。
以本申请的一个实施例中的水果图像为例,选定子图像的大小m为64像素,图像P为256*256像素,步长l为64像素。在这种情况下,相邻的两个子图像之间没有重叠,从图像P中能切割出16个子图像。
但是,如图6所示,如果选定的子图象的大小m为3*3像素,图像P为8*8像素,步长l为3像素,图像P不能被完整的分割成多个子图像,需要对图像P进行padding将图像P扩展为9*9像素,这样图像P能被完整地切割成100个子图像。
以上仅以特定的m和l为例举例说明,在其他实施例中,具体m的选择不限于上述64像素,步长l的选择不限于上述64像素,可根据实际情况灵活确定,此处不再赘述,其均在本申请的保护范围之内。
步骤S1072:根据子图像的大小m和滑动窗口步长l,切割有效输入图像P,获得多个子图像。
通过步骤S1071,已经确定子图像的大小m和滑动窗口步长l,接下来,需要根据子图像的大小m和滑动窗口步长l,切割有效输入图像P,从而提取出多个子图像,同时将子图像的位置关系作为结构信息进行记录保存。
仍以水果图像为例,部署一个大小为m步长为l的滑动窗口,从图像P的原点开始每滑动一次,得到一个子图像;当滑动窗口滑动到图像P的某一行或者某一列的边界时,停止本行或者本列的滑动窗口;接下来利用滑动窗口对下一行或者下一列进行扫描,继续提取子图像,直到扫描完整个图像P。
步骤S1073:将获得的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征。
通过步骤S1072,已对图像P构建多个子图像,接下来,为了保证优化后的深度学习模型可以适用于提取出的多个子图像特征,需要将获得的多个子图像全部采用与步骤S103中所述的特征提取方法一致的方法,具体请参照上述步骤S103的说明,此处不再赘述,其均在本申请的保护范围之内。
提取多个子图像特征的数学算法为:
aij=f(pi,j(x,y),m,n);
其中,aij表示横排第i个竖排第j个子图像的特征向量,f为提取子图像的特征的函数,pij表示子图像aij的原点,pi,j(x,y)为子图像aij在所处的图像P中的像素坐标(x,y),m为子图像aij的大小,n表示获取子图像aij是否需要padding图像P。
通过步骤S1071至S1073,将图像P切割成多个子图像,并且将多个子图像的特征分别提取出来获得每个子图像的特征向量。接下来,将多个子图像的特征向量代入上述深度学习模型,即可计算得知每个子图像中是否包含目标水果。
步骤S107:利用深度学习模型对多个子图像进行识别,判断其中是否包含目标水果。
将提取出的多个子图像的特征向量分别输入步骤S104中优化后的深度学习模型中,每一个子图像都对应一个输出结果;在本申请提供的一个实施例中,每个子图像对应的输出结果是一个包含两个元素的一维向量,该一维向量代表通过深度学习模型计算得到的每一个子图像中包含目标水果的概率和该子图像中不包含目标水果的概率。每个子图像对应的输出结果的数学表达为:
Vij=D(aij);
其中D表示深度学习模型,aij表示表示横排第i个竖排第j个子图像的特征向量,vij为一个包含两个元素的一维向量表示经过深度学习模型的计算该子图像中包含目标水果和不包含目标水果的概率。
至此,从vij中已经得到每个子图像中包含目标水果的概率。接下来,对多个子图像依次判断每个子图像中包含目标水果的概率是否大于预定的阈值。
若单个子图像输出的包含目标水果的概率小于预定的阈值,则判定该子图像中不包含目标水果;否则,判定该子图像中包含目标水果,输出该子图像的原点坐标。
最终,将所有判定为包含目标水果的子图像原点坐标输出,就识别得到针对用户输入图像中的所有目标水果的位置信息。
以上,为本申请提供的一种基于深度学习识别水果的实施例,与其相应的,本申请还提供了一种基于深度学习的水果识别装置。
图7、图8为本发明两个实施例的基于深度学习的水果识别装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参考图8,本申请提供的一种基于深度学习的水果识别装置的实施例中,该基于深度学习的水果识别装置包括:
水果图像库接收单元701,用于接收目标水果图像库中的图像;
训练图像预处理单元702,用于对所有训练图像进行预处理;
特征提取单元703,用于提取图像特征,获得图像的特征向量;
深度学习模型训练单元704,用于训练深度学习模型获得优化后的深度学习模型和它的网络参数;
图像接收单元705,用于接收用户输入的图像;
用户图像预处理单元706,用于截取用户输入图像中的有效区域和对图像进行预处理,获得经过预处理的图像P;
子图像构建单元707,用于将所述经过预处理的图像P切割成多个子图像;
识别单元708,用于采用优化后的深度学习模型,对所述切割出的多个子图像进行识别运算,获得用户输入的图像中所有目标水果的位置信息。
其中,特征提取单元703包括:
特征模型提取子单元,用于采用视觉特征算法对图像库中的图像进行视觉特征提取,并获得相应的特征。
相应的,其特征模型提取子单元采用的视觉特征算法,可以是以下任意一种或几种的组合:
提取图像在颜色空间的值,例如RGB、LUV、HLS,提取图像的灰度值。
归一化子单元,用来将从特征模型提取子单元中获取的视觉特征归一化,得到0均值单位方差的特征向量。
其中,子图像构建单元706包括:
子图像参数确定子单元,用于确定切割出的子图像的大小(以像素为单位)以及计算子图像个数。
获取子图像子单元,用于根据所述子图像参数确定子单元确定的参数,对经过预处理的图像P进行切割,获得多个子图像。
子图像特征提取子单元,用于对所述获取子图像子单元中得到的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征向量。
提取多个子图像特征的数学算法为
aij=f(pi,j(x,y),m,n);
其中,aij表示横排第i个竖排第j个子图像的特征向量,f为提取子图像的特征的函数,pij表示子图像aij的原点,pi,j(x,y)为子图像aij在所处的用户输入的图像P中的像素坐标(x,y),m为子图像aij的大小,n表示获取子图像aij是否需要padding图像P。
另外,基于深度学习模型的水果识别装置,还包括:
子图像识别子单元,用于识别每个子图像中是否包含目标水果;
输出子单元,用于将所述子图像识别子单元中输出的所有的识别结果为包含目标水果的子图像的位置信息输出。
以上,为本申请提供的一种基于深度学习的水果识别装置实施例。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (17)
1.一种基于深度学习的水果识别方法,其特征在于,所述方法包括:
选择目标水果图像库;
提取所述图像库中的所有训练图像的特征;
将所述提取的训练图像的特征输入深度学习模型,对所述深度学习模型进行训练;
接收用户输入的图像;
用滑动窗口切割所述用户输入的图像,将其分割成多个子图像;
利用深度学习模型对所述多个子图像进行识别,判断其中是否包含目标水果;
输出所有判定为包含目标水果的子图像原点坐标。
2.根据权利要求1所述的一种基于深度学习的水果识别方法,其中,选择目标水果图像库之后,还包括:
对所述图像库中的训练图像进行第一预处理。
3.根据权利要求2所述的一种基于深度学习的水果识别方法,其中,接收用户输入的图像之后,还包括:
对所述用户输入的图像进行第二预处理。
4.根据权利要求3所述的一种基于深度学习的水果识别方法,其中,用滑动窗口切割经过第二预处理的用户输入的图像将其分割成多个子图像,包括以下步骤:
确定所述子图像的大小m*m和滑动窗口步长l;
根据子图像的大小m和滑动窗口步长l,切割经过第二预处理的用户输入的图像,获得多个子图像;
将获得的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征。
5.根据权利要求4所述的一种基于深度学习的水果识别方法,其中,子图像的大小m*m和滑动窗口步长l,所述m和l的单位定义为像素。
6.根据权利要求1-5任一项所述的一种基于深度学习的水果识别方法,其中,所述目标水果图像库中包含两类训练图像,一类包含目标水果,设置唯一的第一标签;另一类不包含目标水果,设置唯一的第二标签。
7.根据权利要求6所述的一种基于深度学习的水果识别方法,其中,提取图像库中的所有训练图像特征的方法,包括:
获取图像在颜色空间的值的视觉特征算法,或者获取图像形状的特征值的视觉特征算法;
具体特征值所要采用的方式可以是一种算法,或者多种算法的组合。
8.根据权利要求7所述的一种基于深度学习的水果识别方法,其中,深度学习模型的最后一个全连接层为至少两个输出。
9.根据权利要求8所述的一种基于深度学习的水果识别方法,其中,提取多个子图像特征的数学算法为:
aij=f(pi,j(x,y),m,n);
其中,aij表示横排第i个竖排第j个子图像的特征向量,f为提取子图像的特征的函数,pij表示子图像aij的原点,pi,j(x,y)为子图像aij在所处的用户输入的图像P中的像素坐标(x,y),m为子图像aij的大小,n表示获取子图像aij是否需要padding用户输入的图像P。
10.根据权利要求9所述的一种基于深度学习的水果识别方法,其中,每个子图像对应的输出结果的数学表达为:
Vij=D(aij);
其中D表示深度学习模型,aij表示表示横排第i个竖排第j个子图像的特征向量,vij可以是一个包含两个元素的一维向量表示经过深度学习模型的计算该子图像中包含目标水果和不包含目标水果的概率。
11.根据权利要求10所述的一种基于深度学习的水果识别方法,其中,判断识别图像是否包含目标水果的方法,包括:
对多个子图像依次判断每个子图像中包含目标水果的概率是否大于预定的阈值;
若单个子图像输出的包含目标水果的概率小于预定的阈值,则判定该子图像中不包含目标水果;
否则,判定该子图像中包含目标水果,输出该子图像的原点坐标;
最终,将所有判定为包含目标水果的子图像原点坐标输出,就识别得到针对用户输入图像中的所有目标水果的位置信息。
12.一种基于深度学习的水果识别装置,其特征在于,包括:
水果图像库接收单元,用于接收目标水果图像库中的图像;
特征提取单元,用于提取图像特征,获得图像的特征向量;
深度学习模型训练单元,用于训练深度学习模型获得优化后的深度学习模型和它的网络参数;
图像接收单元,用于接收用户输入的图像;
子图像构建单元,用于将所述用户输入的图像切割成多个子图像;
识别单元,用于对所述切割出的多个子图像进行识别运算,获得用户输入的图像中所有目标水果的位置信息。
13.根据权利要求12所述的基于深度学习的水果识别装置,其特征在于,还包括:
训练图像预处理单元,用于对选定图像库中的所有训练图像进行第一预处理。
14.根据权利要求13所述的基于深度学习的水果识别装置,其特征在于,还包括:
用户图像预处理单元,用于截取用户输入图像中的有效区域和对图像进行第二预处理,获得经过预处理的图像P。
15.根据权利要求14所述的基于深度学习的水果识别装置,其中,所述特征提取单元,包括:
特征模型提取子单元,用于采用视觉特征算法对图像库中的图像进行视觉特征提取,并获得相应的特征。
16.根据权利要求15所述的基于深度学习的水果识别装置,其中,所述子图像构建单元,包括:
子图像参数确定子单元,用于确定切割出的子图像的大小以及计算子图像个数;
获取子图像子单元,用于根据所述子图像参数确定子单元确定的参数,对用户输入的图像进行切割,获得多个子图像;
子图像特征提取子单元,用于对所述获取子图像子单元中得到的多个子图像按照统一的方法进行特征提取,获得多个子图像的特征向量。
17.根据权利要求16所述的基于深度学习的水果识别装置,其特征在于,还包括:
子图像识别子单元,用于识别每个子图像中是否包含目标水果;
输出子单元,用于将所述子图像识别子单元中输出的所有的识别结果为包含目标水果的子图像的位置信息输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458776.8A CN108319894A (zh) | 2017-12-28 | 2017-12-28 | 基于深度学习的水果识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458776.8A CN108319894A (zh) | 2017-12-28 | 2017-12-28 | 基于深度学习的水果识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108319894A true CN108319894A (zh) | 2018-07-24 |
Family
ID=62893274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711458776.8A Pending CN108319894A (zh) | 2017-12-28 | 2017-12-28 | 基于深度学习的水果识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108319894A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569786A (zh) * | 2019-09-06 | 2019-12-13 | 中国农业科学院农业资源与农业区划研究所 | 一种基于无人机数据采集的果树识别和数量监测方法及系统 |
CN110807430A (zh) * | 2019-11-06 | 2020-02-18 | 桂林电子科技大学 | 一种实况全景交通标志图片预处理方法 |
CN111274935A (zh) * | 2020-01-19 | 2020-06-12 | 北京耘数科技有限责任公司 | 一种基于深度学习的水生态信息识别方法及系统 |
CN111310519A (zh) * | 2018-12-11 | 2020-06-19 | 成都智叟智能科技有限公司 | 基于机器视觉与数据采样的货品深度学习训练方法 |
CN111401442A (zh) * | 2020-03-16 | 2020-07-10 | 中科立业(北京)科技有限公司 | 一种基于深度学习的水果识别方法 |
CN111612730A (zh) * | 2019-02-23 | 2020-09-01 | 妙微(杭州)科技有限公司 | 一种焊缝检测定位方法 |
CN111680688A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(成都)科技有限公司 | 字符识别方法及装置、电子设备、存储介质 |
CN111738975A (zh) * | 2019-03-19 | 2020-10-02 | 纬创资通股份有限公司 | 图像辨识方法及图像辨识装置 |
CN112465904A (zh) * | 2019-09-06 | 2021-03-09 | 上海晶赞融宣科技有限公司 | 图像目标定位方法、装置、计算机设备和存储介质 |
CN112639869A (zh) * | 2018-08-30 | 2021-04-09 | 株式会社Ntt数据Ccs | 作物生长阶段判定系统的服务器装置、生长阶段判定方法以及程序 |
CN112668647A (zh) * | 2020-12-29 | 2021-04-16 | 合肥联宝信息技术有限公司 | 一种图像的检测方法、装置及计算机可读存储介质 |
CN112930552A (zh) * | 2018-10-18 | 2021-06-08 | 索尼公司 | 大尺寸图像的训练和放大 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7684594B2 (en) * | 2006-02-08 | 2010-03-23 | Fujifilm Corporation | Method and apparatus for estimating object part location in digital image data using feature value analysis |
CN103324940A (zh) * | 2013-05-02 | 2013-09-25 | 广东工业大学 | 基于多示例多标签学习的皮肤病理图片特征识别方法 |
CN106485186A (zh) * | 2015-08-26 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 图像特征提取方法、装置、终端设备及系统 |
CN107292229A (zh) * | 2017-05-08 | 2017-10-24 | 北京三快在线科技有限公司 | 一种图像识别方法和装置 |
-
2017
- 2017-12-28 CN CN201711458776.8A patent/CN108319894A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7684594B2 (en) * | 2006-02-08 | 2010-03-23 | Fujifilm Corporation | Method and apparatus for estimating object part location in digital image data using feature value analysis |
CN103324940A (zh) * | 2013-05-02 | 2013-09-25 | 广东工业大学 | 基于多示例多标签学习的皮肤病理图片特征识别方法 |
CN106485186A (zh) * | 2015-08-26 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 图像特征提取方法、装置、终端设备及系统 |
CN107292229A (zh) * | 2017-05-08 | 2017-10-24 | 北京三快在线科技有限公司 | 一种图像识别方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112639869A (zh) * | 2018-08-30 | 2021-04-09 | 株式会社Ntt数据Ccs | 作物生长阶段判定系统的服务器装置、生长阶段判定方法以及程序 |
US11935282B2 (en) | 2018-08-30 | 2024-03-19 | Ntt Data Ccs Corporation | Server of crop growth stage determination system, growth stage determination method, and storage medium storing program |
CN112930552A (zh) * | 2018-10-18 | 2021-06-08 | 索尼公司 | 大尺寸图像的训练和放大 |
CN111310519B (zh) * | 2018-12-11 | 2024-01-05 | 成都智叟智能科技有限公司 | 基于机器视觉与数据采样的货品深度学习训练方法 |
CN111310519A (zh) * | 2018-12-11 | 2020-06-19 | 成都智叟智能科技有限公司 | 基于机器视觉与数据采样的货品深度学习训练方法 |
CN111612730A (zh) * | 2019-02-23 | 2020-09-01 | 妙微(杭州)科技有限公司 | 一种焊缝检测定位方法 |
CN111612730B (zh) * | 2019-02-23 | 2022-04-22 | 妙微(杭州)科技有限公司 | 一种焊缝检测定位方法 |
CN111738975B (zh) * | 2019-03-19 | 2023-04-14 | 纬创资通股份有限公司 | 图像辨识方法及图像辨识装置 |
CN111738975A (zh) * | 2019-03-19 | 2020-10-02 | 纬创资通股份有限公司 | 图像辨识方法及图像辨识装置 |
CN110569786B (zh) * | 2019-09-06 | 2022-03-29 | 中国农业科学院农业资源与农业区划研究所 | 一种基于无人机数据采集的果树识别和数量监测方法及系统 |
CN112465904A (zh) * | 2019-09-06 | 2021-03-09 | 上海晶赞融宣科技有限公司 | 图像目标定位方法、装置、计算机设备和存储介质 |
CN110569786A (zh) * | 2019-09-06 | 2019-12-13 | 中国农业科学院农业资源与农业区划研究所 | 一种基于无人机数据采集的果树识别和数量监测方法及系统 |
CN110807430B (zh) * | 2019-11-06 | 2022-06-21 | 桂林电子科技大学 | 一种实况全景交通标志图片预处理方法 |
CN110807430A (zh) * | 2019-11-06 | 2020-02-18 | 桂林电子科技大学 | 一种实况全景交通标志图片预处理方法 |
CN111274935A (zh) * | 2020-01-19 | 2020-06-12 | 北京耘数科技有限责任公司 | 一种基于深度学习的水生态信息识别方法及系统 |
CN111401442A (zh) * | 2020-03-16 | 2020-07-10 | 中科立业(北京)科技有限公司 | 一种基于深度学习的水果识别方法 |
CN111680688A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(成都)科技有限公司 | 字符识别方法及装置、电子设备、存储介质 |
CN111680688B (zh) * | 2020-06-10 | 2023-08-08 | 创新奇智(成都)科技有限公司 | 字符识别方法及装置、电子设备、存储介质 |
CN112668647A (zh) * | 2020-12-29 | 2021-04-16 | 合肥联宝信息技术有限公司 | 一种图像的检测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319894A (zh) | 基于深度学习的水果识别方法及装置 | |
Dias et al. | Multispecies fruit flower detection using a refined semantic segmentation network | |
CN109558806B (zh) | 高分遥感图像变化的检测方法 | |
US8600169B2 (en) | Method and system for learning a same-material constraint in an image | |
Arévalo et al. | Shadow detection in colour high‐resolution satellite images | |
US8478029B2 (en) | Multi-resolution analysis in image segregation | |
US8139867B2 (en) | Image segregation system architecture | |
Aquino et al. | Grapevine flower estimation by applying artificial vision techniques on images with uncontrolled scene and multi-model analysis | |
US7760912B2 (en) | Image segregation system with method for handling textures | |
CN109829914A (zh) | 检测产品缺陷的方法和装置 | |
US20100142805A1 (en) | Constraint generation for use in image segregation | |
Xiao et al. | Efficient shadow removal using subregion matching illumination transfer | |
Huang et al. | Real-time classification of green coffee beans by using a convolutional neural network | |
US20100142846A1 (en) | Solver for image segregation | |
CN108830175A (zh) | 虹膜图像局部增强方法、装置、设备及存储介质 | |
US11880981B2 (en) | Method and system for leaf age estimation based on morphological features extracted from segmented leaves | |
US20220358411A1 (en) | Apparatus and method for developing object analysis model based on data augmentation | |
Chen et al. | A surface defect detection system for golden diamond pineapple based on CycleGAN and YOLOv4 | |
US11461880B2 (en) | Generating image masks from digital images utilizing color density estimation and deep learning models | |
Khalid et al. | Image de-fencing using histograms of oriented gradients | |
CN116071653A (zh) | 基于自然图像的树木多级枝干结构自动提取方法 | |
WO2015171355A1 (en) | A method for identifying color-based vectors for analysis of frames of a video | |
Lopez et al. | Line-based image segmentation method: a new approach to segment VHSR remote sensing images automatically | |
EP4040347A1 (en) | Device and method for learning data augmentation-based space analysis model | |
Wang et al. | Recognition of multi-modal fusion images with irregular interference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180724 |
|
RJ01 | Rejection of invention patent application after publication |