CN111860542B - 用于识别物品类别的方法及装置、电子设备 - Google Patents
用于识别物品类别的方法及装置、电子设备 Download PDFInfo
- Publication number
- CN111860542B CN111860542B CN202010711876.2A CN202010711876A CN111860542B CN 111860542 B CN111860542 B CN 111860542B CN 202010711876 A CN202010711876 A CN 202010711876A CN 111860542 B CN111860542 B CN 111860542B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- preset
- stable
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 280
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 92
- 125000004122 cyclic group Chemical group 0.000 claims description 76
- 238000011176 pooling Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像识别技术领域,公开一种用于识别物品类别的方法,包括:获得物品图像;利用预设卷积神经网络对物品图像进行识别;其中,预设卷积神经网络的全连接层为高级环状结构特征向量;获得物品类别。利用全连接层为高级环状结构特征向量的预设卷积神经网络对物品图像进行识别,进而识别出物品类别。由于预设卷积神经网络的全连接层为高级环状结构特征向量,全连接层稳定特征的路径更多,稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。本申请还公开一种用于识别物品类别的装置及电子设备。
Description
技术领域
本申请涉及图像识别技术领域,例如涉及一种用于识别物品类别的方法及装置、电子设备。
背景技术
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络的隐含层包含卷积层、池化层和全连接层这3类常见构筑,其中:卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron);池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量,在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤;全连接层位于卷积神经网络隐含层的最后部分,其功能是对提取的特征进行非线性组合以得到输出,即全连接层本身不被期望具有特征提取能力,而是试图利用现有的高阶特征完成学习目标。卷积神经网络应用于实现图像识别,可以通过识别物品图像从而获得物品类别。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:在现有卷积神经网络全连接层的层结构中,只有相邻层存在连接而每层节点相互之间不存在连接,导致卷积神经网络在不同条件下的稳定性较差,对于在时间轴上自身发生形变较小的物体,识别准确率较低。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于识别物品类别的方法及装置、电子设备,以解决现有卷积神经网络在不同条件下的稳定性较差,导致物品识别准确率较低的问题。
在一些实施例中,用于识别物品类别的方法包括:获得物品图像;利用预设卷积神经网络对物品图像进行识别;其中,预设卷积神经网络的全连接层为高级环状结构特征向量;获得物品类别。
在一些实施例中,利用预设卷积神经网络对物品图像进行识别前,还包括:获得预设物品的多张图片;将每一图片的多个特征向量连接成初级环状结构特征向量;将多个初级环状结构特征向量融合成高级环状结构特征向量;利用高级环状结构特征向量搭建预设卷积神经网络的全连接层。
在一些实施例中,获得预设物品的多张图片包括:在预设日期的多个预设时间点分别为预设物品拍摄照片;获得多个预设日期内拍摄的预设物品的多张图片。
在一些实施例中,将每一图片的多个特征向量连接成初级环状结构特征向量包括:通过首尾相连的方式将每一照片的多个特征向量连接成初级环状结构特征向量。
在一些实施例中,将多个初级环状结构特征向量融合成高级环状结构特征向量包括:对每一初级环状结构特征向量的多个特征向量按序进行索引编号;分别确定第一初级环状结构特征向量中的第一稳定特征向量和第二初级环状结构特征向量中的第二稳定特征向量;其中,第一稳定特征向量和第二稳定特征向量的索引编号相同;通过第一稳定特征向量或第二稳定特征向量将第一初级环状特征向量和第二初级环状特征向量融合形成高级环状结构特征向量。
可选地,第一稳定特征向量和第二稳定特征向量之间的差值小于预设阈值。
可选地,第一稳定特征向量和/或第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量;其中,多个初级环状结构特征向量为不同预设日期但相同预设时间点拍摄的多张图片所对应的多个初级环状结构特征向量。
可选地,通过第一稳定特征向量或第二稳定特征向量将第一初级环状特征向量和第二初级环状特征向量融合形成高级环状结构特征向量包括:将第一稳定特征向量或第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点;通过连接点将第一初级环状特征向量和第二初级环状特征向量融合以形成高级环状结构。
在一些实施例中,利用高级环状结构特征向量搭建预设卷积神经网络的全连接层,包括:获得初始卷积神经网络;将初始卷积神经网络的池化层的每一输出节点与高级环状结构特征向量的每一特征节点连接。
在一些实施例中,用于识别物品类别的装置包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述用于识别物品类别的方法。
在一些实施例中,电子设备包括上述用于识别物品类别的装置。
本公开实施例提供的用于识别物品类别的方法及装置、电子设备,可以实现以下技术效果:
利用全连接层为高级环状结构特征向量的预设卷积神经网络对物品图像进行识别,进而识别出物品类别。由于预设卷积神经网络的全连接层为高级环状结构特征向量,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于全连接层为单向离散结构的卷积神经网络的稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于识别物品类别的方法的流程示意图;
图2是本公开实施例提供的另一个用于识别物品类别方法的流程示意图;
图3是本公开实施例提供的另一个用于识别物品类别的方法的流程示意图;
图4是本公开实施例提供的另一个用于识别物品类别的方法的流程示意图;
图5是本公开实施例提供的一个多个特征向量连接成一个初级环状结构特征向量的示意图;
图6是本公开实施例提供的一个多个初级环状结构特征向量融合成一个高级环状结构特征向量的示意图;
图7是本公开实施例提供的一个用于识别物品类别的装置的结构示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
现有卷积神经网络(初始卷积神经网络)包括卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-Connected layer),其中:每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的,卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征;池化层通常在卷积层之后会得到维度很大的特征,将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征;全连接层把所有局部特征结合变成全局特征,用来计算最后每一类的得分,并且在当前卷积神经网络全连接层的层结构中,只有相邻层存在连接,每层节点相互之间不存在连接。
结合图1所示,本公开实施例提供一种用于识别物品类别的方法,包括以下步骤:
S101:获得物品图像。
这里,物品图像即待识别物品的图像。
S102:利用预设卷积神经网络对物品图像进行识别。
其中,预设卷积神经网络的全连接层为高级环状结构特征向量。
S103:获得物品类别。
采用本公开实施例提供的用于识别物品类别的方法,利用全连接层为高级环状结构特征向量的预设卷积神经网络对物品图像进行识别,进而识别出物品类别。由于预设卷积神经网络的全连接层为高级环状结构特征向量,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于全连接层为单向离散结构的卷积神经网络的稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
结合图2所示,利用预设卷积神经网络对物品图像进行识别前,还包括以下步骤:
S201:获得预设物品的多张图片。
这里,预设物品为需要提取语义特征的物品,例如碗、杯子等器具。
S202:将每一图片的多个特征向量连接成初级环状结构特征向量。
可选地,将每一图片的多个特征向量连接成初级环状结构特征向量包括:通过首尾相连的方式将每一照片的多个特征向量连接成初级环状结构特征向量。图5示出了一个将多个特征向量连接成一个初级环状结构特征向量的示意图。在实际应用中,可以按照如图5所示的方式将每一图片获得的多个特征向量(例如4096个)按照首尾相连的方式组成初级环状结构特征向量,即将位于中间位置的多个相邻特征向量相互连接后,将位于首位置的特征向量(例如编号为“1”的特征向量)和位于尾位置的特征向量(例如编号为“4096”的特征向量)进行连接。
S203:将多个初级环状结构特征向量融合成高级环状结构特征向量。
通过将多个初级环状结构特征向量融合成高级环状结构特征向量,增加了卷积神经网络全连接层特征向量的路径,使得卷积神经网络总体特征更稳定。
S204:利用高级环状结构特征向量搭建预设卷积神经网络的全连接层。
可选地,利用高级环状结构特征向量搭建预设卷积神经网络的全连接层包括:获得初始卷积神经网络;将初始卷积神经网络的池化层的每一输出节点与高级环状结构特征向量的每一特征节点连接。
初始卷积神经网络全连接层为单向结构特征向量,在获得高级环状结构特征向量后,将初始卷积神经网络的全连接层的单向结构特征向量替换成高级环状结构特征向量。具体来看,初始卷积神经网络池化层包括多个输出节点,将每一输出节点与高级环状结构特征向量的每一特征节点(即组成高级环状特征向量的每一特征向量)连接,从而完成预设卷积神经网络全连接层的搭建。
本公开实施例中,将预设物品的每一图片的多个特征向量连接成初级环状结构特征向量,然后将多个初级环状结构特征向量融合成高级环状结构特征向量,最后将初始卷积神经网络的全连接层的单向结构特征向量替换成高级环状结构特征向量,进而完成预设卷积神经网络全连接层的搭建。这样,把初始环状结构特征向量融合为更复杂的高级环状结构特征向量后,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于目前全连接层为单向离散结构的初始卷积神经网络的稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
在一些实施例中,如图3所示,获得预设物品的多张图片包括以下步骤:
S301:在预设日期的多个预设时间点分别为预设物品拍摄照片。
这里,预设日期为根据随机概率抽取的日期(例如五月二十号);多个预设时间点为预先设置的多个拍摄时间点(例如0:00-6:00-12:00-18:00)。在数据采集过程中,固定预设物品使预设物品始终处于同一状态而不发生姿态、位置等变化。调整摄像头位置,保证预设物品中心位于摄像头拍摄照片的中心,并且整个预设物品的长宽均不小于图片像素长宽的1/2,然后固定摄像头,使得摄像头和预设物品保持相对静止状态。当前时刻到达预设日期的预设时间点时,控制摄像头为预设物品自动拍摄一张照片,则一天内共拍摄到多张(例如4张)预设物品在同一场景不同时刻的照片。
S302:获得多个预设日期内拍摄的预设物品的多张图片。
为保证有足够的图片时间序列集作为输入,获得多个预设日期(例如180天)内拍摄的预设物品的多张图片。
在本可选实施例中,在前期数据采集时,获取在多个预设日期内的多个预设时间点为预设物品拍摄的多张照片。这样,按照时间轴为预设物品拍摄照片,进而提取预设物品在相同背景不同自然环境下的稳定特征,可以提高卷积神经网络的泛化识别能力。
在一些实施例中,如图4所示,将多个初级环状结构特征向量融合成高级环状结构特征向量包括以下步骤:
S401:对每一初级环状结构特征向量的多个特征向量按序进行索引编号。
例如,将每一图片获得的4096个特征向量按照首尾相连的方式组成初级环状结构特征向量后,按照从头到尾的顺序对4096个特征向量进行索引编号,即,x∈{1,2,3,……4094,4095,4096},其中,x为特征向量。
S402:分别确定第一初级环状结构特征向量中的第一稳定特征向量和第二初级环状结构特征向量中的第二稳定特征向量。
其中,第一稳定特征向量和第二稳定特征向量的索引编号相同,表示第一稳定特征向量和第二稳定特征向量为预设物品不同时刻同一位置的稳定特征向量。稳定特征向量即特征向量中不随时间发生明显变化的特征。
可选地,第一稳定特征向量和第二稳定特征向量之间的差值小于预设阈值。亦即,|Em[x]-En[x]|<ε,其中,Em[x]为预设物品在m时刻对应照片中索引编号为x的特征向量,En[x]为预设物品在n时刻对应照片中索引编号为x的特征向量,ε为预设阈值。ε的取值范围为[1,5],例如,1、2、3、4或5。当第一稳定特征向量和第二稳定特征向量之间的差值小于预设阈值时,表明索引编号为x的特征不随时间发生明显变化,可以认为该特征为非常稳定的特征,因而把m时刻和n时刻索引编号为x的两个特征向量融合为一个特征向量。
可选地,第一稳定特征向量和/或第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量;其中,多个初级环状结构特征向量为不同预设日期但相同预设时间点拍摄的多张图片所对应的多个初级环状结构特征向量。亦即,Em[x]为预设物品在多个预设日期且在m时刻对应照片中索引编号为x的特征向量的平均特征向量,En[x]为预设物品在多个预设日期且在n时刻对应照片中索引编号为x的特征向量的平均特征向量。
第一稳定特征向量和/或第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量。即第一稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量;或者,第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量;或者,第一稳定特征向量和第二稳定特征向量均为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量。多个初级环状结构特征向量分别与不同预设日期但相同预设时间点拍摄的多张图片相对应,而第一稳定特征向量和/或第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量。这样,在将多个初级环状结构特征向量融合成高级环状结构特征向量的过程中,在时间轴上对预设物品的特征向量进行了特征融合,所以将该高级环状特征向量应用于卷积神经网络后,在利用该卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体(例如碗、电脑等物理形状相对固定的物体),识别效果更佳;而且,第一稳定特征向量和/或第二稳定特征向量采用多个初级环状结构特征向量中索引编号相同的特征向量的平均值,提高了卷积神经网络对物品的泛化识别能力。
S403:通过第一稳定特征向量或第二稳定特征向量将第一初级环状特征向量和第二初级环状特征向量融合形成高级环状结构特征向量。
可选地,通过第一稳定特征向量或第二稳定特征向量将第一初级环状特征向量和第二初级环状特征向量融合形成高级环状结构特征向量,包括:将第一稳定特征向量或第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点;通过连接点将第一初级环状特征向量和第二初级环状特征向量融合以形成高级环状结构。
将第一稳定特征向量或第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点。即,将第一稳定特征向量删除,将第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点;或者,将第二稳定特征向量删除,将第一稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点。
图6示出了两个初级环状结构特征向量融合成一个高级环状结构特征向量的示意图。由图6可知,第一稳定特征向量为E0:00[20],即预设物品在0:00时刻对应照片中索引编号为20的特征向量,第二稳定特征向量为E12:00[20],即预设物品在12:00时刻对应照片中索引编号为20的特征向量。将第一稳定特征向量E0:00[20]或第二稳定特征向量E12:00[20]作为第一初级环状结构特征向量与第二初级环状特征向量共同的连接点,从而将第一初级环状结构特征向量与第二初级环状特征向量融合连接。
本公开实施例中,分别确定第一初级环状结构特征向量中的第一稳定特征向量和第二初级环状结构特征向量中的第二稳定特征向量,并通过第一稳定特征向量或第二稳定特征向量将第一初级环状特征向量和第二初级环状特征向量融合形成高级环状结构特征向量。一方面,由于在把初始环状结构特征向量融合为更复杂的高级环状结构特征向量的过程中,在时间轴上对预设物品的特征向量进行了特征融合,所以将该高级环状特征向量应用于卷积神经网络后,在利用该卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别效果更佳;另一方面,将卷积神经网络全连接层替换为高级环状结构特征向量后,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于全连接层为单向离散结构的初始卷积神经网络的稳定性要更强。
本公开实施例提供的预设卷积神经网络可以应用于实现图像复原或者图像识别。
图像编解码器的作用是从一张原始图片中对应提取出整张图片的高层语义信息特征向量,它包括两部分:图像编码器和图像解码器。图像编码器的作用是将图片转化成特征向量,而图像解码器的作用是将特征向量重新生成原始图片,保证生成图片与原始图片尽可能相似。图像编解码器模型的构建过程主要包括两步:构建图像编解码器模型,迭代调参,得到最优的模型;删除解码器,只保留编码器。在图像编解码器模型的构建过程中,基于构建的预设卷积神经网络建立图像编解码器模型。这样,在把初始环状结构特征向量融合为更复杂的高级环状结构特征向量的过程中,由于在时间轴上对预设物品的特征向量进行了特征融合,所以将该高级环状特征向量应用于预设卷积神经网络并构建图像编解码器模型后,图像编解码器能够输入同一物体相同背景不同时间段下的图片时间序列集,并提取不受自然环境变化影响的稳定语义特征,具有良好的泛化能力。
将预设卷积神经网络应用于实现图像识别时,由于在把初始环状结构特征向量融合为更复杂的高级环状结构特征向量的过程中,在时间轴上对预设物品的特征向量进行了特征融合,所以将该高级环状特征向量应用于预设卷积神经网络后,在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
结合图7所示本公开实施例提供一种用于识别物品类别的装置,包括处理器(processor)70和存储器(memory)71,还可以包括通信接口(Communication Interface)72和总线73。其中,处理器70、通信接口72、存储器71可以通过总线73完成相互间的通信。通信接口72可以用于信息传输。处理器70可以调用存储器71中的逻辑指令,以执行上述实施例的用于识别物品类别的方法。
此外,上述的存储器71中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器70通过运行存储在存储器71中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的用于识别物品类别的的方法。
存储器71可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器。
可选地,用于构建卷积神经网络的方法包括:获得物品图像;利用预设卷积神经网络对物品图像进行识别;其中,预设卷积神经网络的全连接层为高级环状结构特征向量;获得物品类别。
采用本公开实施例提供的用于识别物品类别的的装置,利用全连接层为高级环状结构特征向量的预设卷积神经网络对物品图像进行识别,进而识别出物品类别。由于预设卷积神经网络的全连接层为高级环状结构特征向量,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于全连接层为单向离散结构的卷积神经网络的稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
本公开实施例提供了一种电子设备(例如:计算机、手机等),包含上述的用于识别物品类别的装置。
采用本公开实施例提供的电子设备,利用全连接层为高级环状结构特征向量的预设卷积神经网络对物品图像进行识别,进而识别出物品类别。由于预设卷积神经网络的全连接层为高级环状结构特征向量,全连接层稳定特征的路径更多,对于卷积神经网络总体特征的贡献更大,卷积神经网络的稳定性相比于全连接层为单向离散结构的卷积神经网络的稳定性要更强,因此在利用该预设卷积神经网络进行图片识别时,对于在时间轴上自身发生形变较小的物体,识别准确率更高,识别效果更佳。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于识别物品类别的方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于识别物品类别的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。本公开实施例的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。当用于本申请中时,虽然术语“第一”、“第二”等可能会在本申请中使用以描述各元件,但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。例如,在不改变描述的含义的情况下,第一元件可以叫做第二元件,并且同样第,第二元件可以叫做第一元件,只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件,但可以不是相同的元件。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (8)
1.一种用于识别物品类别的方法,其特征在于,包括:
获得物品图像;
利用预设卷积神经网络对所述物品图像进行识别;其中,所述预设卷积神经网络的全连接层为高级环状结构特征向量;
获得物品类别;
利用预设卷积神经网络对物品图像进行识别前,在预设日期的多个预设时间点分别为预设物品拍摄照片;获得多个预设日期内拍摄的预设物品的多张图片;通过首尾相连的方式将每一图片的多个特征向量连接成初级环状结构特征向量;
对每一初级环状结构特征向量的多个特征向量按序进行索引编号;分别确定第一初级环状结构特征向量中的第一稳定特征向量和第二初级环状结构特征向量中的第二稳定特征向量;其中,第一稳定特征向量和第二稳定特征向量的索引编号相同;将第一稳定特征向量或第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点;通过连接点将第一初级环状特征向量和第二初级环状特征向量融合以形成高级环状结构;第一稳定特征向量和第二稳定特征向量为特征向量中不随时间发生明显变化的特征;
获得初始卷积神经网络;将初始卷积神经网络的池化层的每一输出节点与高级环状结构特征向量的每一特征节点连接,以利用高级环状结构特征向量搭建预设卷积神经网络的全连接层。
2.根据权利要求1所述的方法,其特征在于,所述第一稳定特征向量和所述第二稳定特征向量之间的差值小于预设阈值。
3.根据权利要求1所述的方法,其特征在于,所述第一稳定特征向量和/或所述第二稳定特征向量为多个初级环状结构特征向量中索引编号相同的特征向量的平均特征向量;其中,所述多个初级环状结构特征向量为不同预设日期但相同预设时间点拍摄的多张图片所对应的多个初级环状结构特征向量。
4.根据权利要求1所述的方法,其特征在于,将第一稳定特征向量或第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点,包括:
将第一稳定特征向量删除,将第二稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点;或者,
将第二稳定特征向量删除,将第一稳定特征向量作为第一初级环状特征向量和第二初级环状特征向量的连接点。
5.根据权利要求1所述的方法,其特征在于,通过首尾相连的方式将每一图片的多个特征向量连接成初级环状结构特征向量,包括:
将位于中间位置的多个相邻特征向量相互连接后,将位于首位置的特征向量和位于尾位置的特征向量进行连接。
6.根据权利要求1所述的方法,其特征在于,预设物品为需要提取语义特征的物品。
7.一种用于识别物品类别的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至6任一项所述的用于识别物品类别的方法。
8.一种电子设备,其特征在于,包括如权利要求7所述的用于识别物品类别的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010711876.2A CN111860542B (zh) | 2020-07-22 | 2020-07-22 | 用于识别物品类别的方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010711876.2A CN111860542B (zh) | 2020-07-22 | 2020-07-22 | 用于识别物品类别的方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860542A CN111860542A (zh) | 2020-10-30 |
CN111860542B true CN111860542B (zh) | 2024-06-28 |
Family
ID=72950668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010711876.2A Active CN111860542B (zh) | 2020-07-22 | 2020-07-22 | 用于识别物品类别的方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860542B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874898A (zh) * | 2017-04-08 | 2017-06-20 | 复旦大学 | 基于深度卷积神经网络模型的大规模人脸识别方法 |
CN106951912A (zh) * | 2017-02-15 | 2017-07-14 | 海尔优家智能科技(北京)有限公司 | 一种果蔬外观变化识别模型的建立方法和识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9805255B2 (en) * | 2016-01-29 | 2017-10-31 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
CN106599837A (zh) * | 2016-12-13 | 2017-04-26 | 北京智慧眼科技股份有限公司 | 基于多图像输入的人脸识别方法及装置 |
CN107341452B (zh) * | 2017-06-20 | 2020-07-14 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
CN108665441B (zh) * | 2018-03-30 | 2019-09-17 | 北京三快在线科技有限公司 | 一种近似重复图像检测方法及装置,电子设备 |
JP6734323B2 (ja) * | 2018-05-22 | 2020-08-05 | 株式会社 ディー・エヌ・エー | 対象物の類似度判定のためのプログラム、システム、及び方法 |
CN108899051B (zh) * | 2018-06-26 | 2020-06-16 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
EP3594861B1 (en) * | 2018-07-09 | 2024-04-03 | Tata Consultancy Services Limited | Systems and methods for classification of multi-dimensional time series of parameters |
US11348227B2 (en) * | 2018-09-04 | 2022-05-31 | The Trustees Of The University Of Pennsylvania | Image registration using a fully convolutional network |
CN110930347B (zh) * | 2018-09-04 | 2022-12-27 | 京东方科技集团股份有限公司 | 卷积神经网络的训练方法、焊点缺陷的检测方法及装置 |
CN109523522B (zh) * | 2018-10-30 | 2023-05-09 | 腾讯医疗健康(深圳)有限公司 | 内窥镜图像的处理方法、装置、系统及存储介质 |
CN109946667B (zh) * | 2019-03-18 | 2022-12-02 | 西安电子科技大学 | 基于卷积神经网络的识别变体飞机高分辨距离像方法 |
-
2020
- 2020-07-22 CN CN202010711876.2A patent/CN111860542B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951912A (zh) * | 2017-02-15 | 2017-07-14 | 海尔优家智能科技(北京)有限公司 | 一种果蔬外观变化识别模型的建立方法和识别方法 |
CN106874898A (zh) * | 2017-04-08 | 2017-06-20 | 复旦大学 | 基于深度卷积神经网络模型的大规模人脸识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111860542A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | RSNet: The search for remote sensing deep neural networks in recognition tasks | |
WO2022121485A1 (zh) | 图像的多标签分类方法、装置、计算机设备及存储介质 | |
CN110555050B (zh) | 一种基于元路径的异构网络节点表示学习方法 | |
CN106778502B (zh) | 一种基于深度残差网络的人群计数方法 | |
CN111611472A (zh) | 一种基于图卷积神经网络的捆绑推荐方法及系统 | |
CN107784372A (zh) | 目标对象属性的预测方法、装置和系统 | |
CN106294798A (zh) | 一种基于缩略图的图像分享方法和终端 | |
CN107240029B (zh) | 一种数据处理方法及装置 | |
CN112801063B (zh) | 神经网络系统和基于神经网络系统的图像人群计数方法 | |
CN109871461A (zh) | 基于深度哈希网络和子块重排序的大规模图像子块检索方法 | |
CN105260676A (zh) | 一种基于隐私规则和感知哈希的社交网络下图像隐私决策推荐系统及其方法 | |
CN104331515B (zh) | 一种自动生成旅游日记的方法和系统 | |
CN108269275A (zh) | 一种基于非局部神经网络的非局部建模方法 | |
CN110442741B (zh) | 一种基于张量融合和重排序的跨模态图文互搜方法 | |
CN111860542B (zh) | 用于识别物品类别的方法及装置、电子设备 | |
CN102591958B (zh) | 基于tcam的确定性有穷状态自动机的匹配方法和装置 | |
CN110247805B (zh) | 一种基于k壳分解的识别传播关键节点的方法及装置 | |
US12033352B2 (en) | Methods and systems for generating end-to-end model to estimate 3-dimensional(3-D) pose of object | |
CN107506735A (zh) | 照片归类方法以及归类系统 | |
CN113052025B (zh) | 图像融合模型的训练方法、图像融合方法及电子设备 | |
CN116662678A (zh) | 一种采用异构图神经网络的社交兴趣嵌入方法 | |
CN114612734B (zh) | 遥感影像特征匹配方法、装置、存储介质及计算机设备 | |
CN112734519B (zh) | 一种基于卷积自编码器网络的商品推荐方法 | |
CN111782837B (zh) | 图像检索方法和装置 | |
CN115439912A (zh) | 一种识别表情的方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |