CN107239777B - 一种基于多视角图模型的餐具检测和识别方法 - Google Patents

一种基于多视角图模型的餐具检测和识别方法 Download PDF

Info

Publication number
CN107239777B
CN107239777B CN201710336657.9A CN201710336657A CN107239777B CN 107239777 B CN107239777 B CN 107239777B CN 201710336657 A CN201710336657 A CN 201710336657A CN 107239777 B CN107239777 B CN 107239777B
Authority
CN
China
Prior art keywords
image
matrix
view
tableware
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710336657.9A
Other languages
English (en)
Other versions
CN107239777A (zh
Inventor
陈喆
殷福亮
甄佳林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710336657.9A priority Critical patent/CN107239777B/zh
Publication of CN107239777A publication Critical patent/CN107239777A/zh
Application granted granted Critical
Publication of CN107239777B publication Critical patent/CN107239777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开了一种基于多视角图模型的餐具检测和识别方法,利用多视角图模型的学习框架将餐具检测和识别结合成统一的框架,首先利用多视角图模型检测图像中的餐具,然后利用多视角特征融合学习新特征进行餐具的识别。采用多视角图模型进行图像的餐具检测,利用超像素点在多个视角下的特征构建图模型,然后再学习每个超像素点是餐具所在位置的置信度,从而更准确的检测出餐具。采用多视角融合算法进行特征融合,构建更强区分性的特征,有利于提高识别率。在多视角图模型构建中,利用指数型权值参数,避免出现多视角的权值系数为零,使得各个视角特征能够相互补充。

Description

一种基于多视角图模型的餐具检测和识别方法
技术领域
本发明涉及一种机器视觉的餐具检测和识别方法,尤其涉及一种基于多视角图模型的检测和识别方法。
背景技术
随着服务机器人硬件成本的下降和相关理论技术的不断成熟以及人们的需求,餐厅服务机器人已经开始应用于餐厅帮助人们回收餐具。餐厅服务机器人需要应用计算机视觉技术,实时检测并识别出餐桌中不同的餐具类别。并根据餐具中的内容(如有无食物),进行后续处理(如收拾餐具)任务。餐具检测和识别主要根据采集图像中餐具、食物的位置和轮廓,对餐具、食物进行分割,并识别出其具体类别。目前,基于计算机视觉的餐具、食物检测和识别方法主要为单视角检测和识别,存在检测不准确和识别率低等问题,因此,本发明提出基于多视角图模型的餐具检测和识别方法,用来提高检测效果和识别率。
发明内容
本发明提供了一种基于多视角图模型的餐具检测和识别方法,利用多视角图模型的学习框架将餐具检测和识别结合成统一的框架,首先利用多视角图模型检测图像中的餐具,然后利用多视角特征融合学习新特征进行餐具的识别。
采用多视角图模型进行图像的餐具检测,利用超像素点在多个视角下的特征构建图模型,然后再学习每个超像素点是餐具所在位置的置信度,从而更准确的检测出餐具。采用多视角融合算法进行特征融合,构建更强区分性的特征,有利于提高识别率。在多视角图模型构建中,利用指数型权值参数,避免出现多视角的权值系数为零,使得各个视角特征能够相互补充。在餐具检测中,既考虑了餐具种子节点的作用,同时考虑了背景种子节点的作用,以加大背景和餐具的差异性。在餐具分割过程中,没有直接在彩色图像中提取餐具,而是先在二值图像上确定餐具的最小外接矩,然后在对应的彩色图像上进行分割,从而降低算法复杂度、提高分割效果。
附图说明
为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于多视角图模型的餐具检测算法流程图
图2为本发明基于多视角特征融合的餐具识别流程图
图3为本发明餐具分割示意图
图4为本发明餐具检测效果示意图
图5为本发明算法和单视角排序算法多个餐具时检测效果对比示意图
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
本发明缩略语和关键术语定义:
SLIC:Simple Linear Iterative Clustering,简单线性迭代聚类算法
SVM:Support Vector Machine,支持向量机
HSV:Hue Saturation Value,HSV颜色模型
MDS:Multiple Dimensional Scaling,多维缩放
如图1~5所示:一种基于多视角图模型的餐具检测和识别方法,主要包括以下步骤:
图像的超像素分割是将图像中大量的像素点分割成少量的整体性超像素点,这种分割也是对图像内容的一种初步分割过程。
Simple Linear Iterative Clustering(SLIC)算法是一种简单有效的线性迭代聚类算法,SLIC算法采用接近人眼视觉感知特性的Lab颜色空间进行超像素点的分割,定义图像中像素点的总个数为N,超像素分割的步骤为:
(1)先将整幅图像平均分割成k个部分,每部分均为S×S的小区域,其中,
Figure BDA0001294042310000021
(2)初始化每个小区域的中心为Ck=[lk,ak,bk,xk,yk]T,其中(xk,yk)为该小区域中梯度最小的点即f(x+1,y)+f(x,y+1)-2f(x,y)最小的点;
(3)根据式
Figure BDA0001294042310000031
计算每个像素点到步骤(2)中Ck的距离,选取距离最小的中心点为该像素的中心,重新划分超像素区域,根据步骤(2)在新划分的区域上重新确定新的小区域中心Ck,计算新的小区域中心Ck和旧的小区域中心Ck间的位置距离,其中,
Figure BDA0001294042310000032
m=15,ds为位置距离,dc为Lab距离;
(4)当新的中心Ck与旧的中心Ck的位置距离小于一个很小的阈值时输出超像素分割的结果,否则重复步骤(2)~(3);
本发明使用HSV颜色直方图[4]和颜色矩[4]这两种特征分别构建超像素点间的多视角图模型。
对于
Figure BDA0001294042310000033
其中包含2个视角特征
Figure BDA0001294042310000034
x1,x2,…,xN表示图像中SLIC算法分割得到的N个超像素点,X(1)表示它们的HSV颜色直方图特征,X(2)表示超像素点间的颜色矩信息。
以图像中所有的超像素点为图模型的节点,通过超像素点间的位置关系确定节点间是否存在连接边。
此外,为了更好的利用图像的边缘信息,规定图像边缘部分的超像素点都是互相连接的。
以此策略确定出图模型的所有连接边,而边权值则可以通过超像素点之间特征向量的高斯核函数进行计算:
Figure BDA0001294042310000035
其中,
Figure BDA0001294042310000036
表示第i个超像素节点和第j个超像素节点在第t个视角下的特征向量
Figure BDA0001294042310000037
Figure BDA0001294042310000038
之间的欧氏距离。
在第一阶段的目标检测过程中,假设图像边缘的超像素点是背景信息,所以在该阶段的相似性学习过程中,设定初始的相似性值y=[y1,y2,…,yN]T
设定图像上边界的超像素节点对应的初始相似性值为1;其它所有的超像素节点设置为0。假设多视角图模型学习得到的相似性值为f,则多视角排序算法的目标优化函数可以表示成:
Figure BDA0001294042310000039
该式可以进一步转化成如下的矩阵形式
Figure BDA0001294042310000041
其中,α(t)是每个视角下近邻矩阵的权重系数,参数μ>0是平衡目标函数中平滑约束项和拟合约束项,||·||2表示向量的2范数,Tr(·)表示矩阵的迹。L(t)=D(t)-W(t)是第t个视角下近邻矩阵所对应的的拉普拉斯矩阵,
Figure BDA0001294042310000042
表示近邻矩阵W(t)的行和,在每个视角的权值α(t)中加入指数参数γ,可以通过调整γ的取值控制每个视角下近邻矩阵的权值。
对于该多视角图模型的求解过程可以通过分别迭代求解其中的两个参数f和α,在迭代求解过程中先初始化这两个参数,先固定参数α,求解更新参数f,再固定参数f,求解更新参数α,以此迭代,直到参数f与上一次迭代的结果小于给定的阈值。求得f和α的解析解,采用迭代的方法进行求解,具体的迭代方法如下:
(1)计算每个视角下的近邻矩阵W(t)(1≤t≤m),初始化α(t)=1/m,f=y,
Figure BDA0001294042310000043
(2)当
Figure BDA0001294042310000044
时,执行步骤(3)~(4),当
Figure BDA0001294042310000045
时,执行步骤(5);
(3)
Figure BDA0001294042310000046
利用
Figure BDA0001294042310000047
更新相似性得分向量f;
(4)利用
Figure BDA0001294042310000048
更新近邻矩阵的权值参数α;
(5)返回相似性得分向量f。
其中,输入为通过HSV、颜色矩获得的近邻矩阵W(t)和初始相似性特征向量y=[y1,y2,…,yN]T;若yi为上边界的节点,则初始相似值为1,其它所有的超像素节点设置为0。参数γ用来调节各个视角之间的权重,参数μ为调节式
Figure BDA0001294042310000049
中的第一项和第二项权重,γ=3,μ=0.01。
利用上述方法迭代得到超像素点之间的相似性值为ft,第i个超像素点为目标的相似值可以表示成:
St(i)=1-ft(i),i=1,2,…,N (4)
同样的,可以分别将图像的下边界、左边界和右边界作为背景信息节点,设定相应的初始相似性特征向量,然后再利用多视角图模型的排序算法进行学习,依次分别确定出其对应的目标相似值Sb(i)、Sl(i)和Sr(i),然后将这四个相似值进行整合得到整体的检测结果:
S1(i)=St(i)Sb(i)Sl(i)Sr(i),i=1,2,…,N (5)
在第二阶段的目标检测过程中,设定两个所述相似性f阈值t1和t2,设定t1为界定为餐具的相似度阈值,t2为界定为背景的相似度阈值,初始的相似性向量
Figure BDA0001294042310000051
可以设定为:
Figure BDA0001294042310000052
其中i=1,2,…,N,对该向量进行标准化生成初始的相似性值。
然后再利用式(3)中的方法学习超像素之间的相似性
Figure BDA0001294042310000053
即为第二次检测的结果:
Figure BDA0001294042310000054
将第二次检测的结果进行二值化,阈值设定为所有超像素点相似性值的平均值,大于平均值的超像素点取为1,小于平均值的取为0,得到二值化图像。将二值化图像与输入图像相乘,得到餐具检测图像。比如:根据f值的大小,餐具对应的种子点t1比较大,如果图像灰度值范围是0~1,那么这个t1大概是0.8左右,根据这个阈值设定,重新排序之后f大的那部分就可以认为是餐具。
对餐具检测图像进行图像分割得到最终的待识别的餐具图像,餐具分割的步骤为:
(1)在二值图像上用区域增长法确定连通域,并确定每个连通域的最左、最右、最上、最下四个点,并以这四个点确定连通域的外接矩形(矩形边平行于坐标轴);
(2)记录每个连通区域外接矩的坐标,并在对应的彩色图像中提取外接矩内的餐具;
图像中餐具的识别
图像中的餐具识别的作用是能够确定餐具的具体类别,通过已训练好的SVM分类器对该餐具进行测试,输出该餐具的具体类别标签。
定义N1个图像样本在m1个不同视角下的视觉特征分别记为
Figure BDA0001294042310000061
其中
Figure BDA0001294042310000062
表示第
Figure BDA0001294042310000063
个视角下的图像特征,
Figure BDA0001294042310000064
表示第1个图像样本在第
Figure BDA0001294042310000065
个视角下的特征向量,对应的特征维数为Dt
选择利用HSV颜色直方图和MDS[5]特征进行不同视角下的特征提取。
以每个图像作为图模型的节点,图像特征向量之间的距离作为图模型的连接边,建立多视角图模型,其中图模型连接边的权值可以通过高斯核函数进行计算:
Figure BDA0001294042310000066
其中,
Figure BDA0001294042310000067
表示第i个图像样本和第j个图像样本在第
Figure BDA0001294042310000068
个视角下的特征向量
Figure BDA0001294042310000069
Figure BDA00012940423100000610
之间的欧氏距离;
假设融合后的新特征是Y,比如一个检测目标餐具的多个视角的特征的集合,对于多视角特征的融合学习,需要考虑到不同视角在特征描述中的重要性。
因此,为了平衡这些近邻关系在特征融合过程中的作用,为每个视角下的近邻关系
Figure BDA00012940423100000611
加入权值参数
Figure BDA00012940423100000612
因此,本文基于多视角融合学习的算法可以有如下的优化目标函数:
Figure BDA00012940423100000613
式(9)能够进一步转换成如下矩阵的形式:
Figure BDA00012940423100000614
Figure BDA00012940423100000615
是第
Figure BDA00012940423100000616
个视角下近邻矩阵所对应的的拉普拉斯矩阵,
Figure BDA00012940423100000617
表示近邻矩阵
Figure BDA00012940423100000618
的行和。约束条件YYT=I是为了唯一确定出融合后的图像特征向量Y,I表示单位矩阵。
由于多视角特征融合算法中包含两个参数
Figure BDA0001294042310000071
和Y,用迭代优化方法得到方程的解,首先固定参数Y,更新权值参数
Figure BDA0001294042310000072
利用拉格朗日乘子法带入优化约束
Figure BDA0001294042310000073
得到如下的表达式:
Figure BDA0001294042310000074
对优化函数
Figure BDA0001294042310000075
求对参数
Figure BDA0001294042310000076
的偏导,并令偏导等于0得到权值参数
Figure BDA0001294042310000077
的解为:
Figure BDA0001294042310000078
由于拉普拉斯矩阵
Figure BDA0001294042310000079
是半正定矩阵,显然参数
Figure BDA00012940423100000710
固定权值参数
Figure BDA00012940423100000711
更新参数Y,此时目标优化函数式(10)可以转化成
Figure BDA00012940423100000712
其中,矩阵
Figure BDA00012940423100000713
因为拉普拉斯矩阵
Figure BDA00012940423100000714
是对称的,所以矩阵
Figure BDA00012940423100000715
也是对称矩阵。因此,根据Ky-Fan定理,优化方程的全局最优解可以通过矩阵L最小的d个特征值对应的特征向量来确定,其中Y=UT=[u1,u2,…,ud]T
(Ky-Fan定理):如果矩阵M∈Rn×n是对称矩阵,其前k个最小特征值分别λ1≤λ2≤...≤λk
这些特征值对应的特征向量是U=[u1,u2,…,uk]那么就有
Figure BDA00012940423100000716
而且,Z的最优解可以表示成Z*=UQ,其中Q是任意的正交矩阵。
下面用迭代的方法求参数
Figure BDA0001294042310000081
和Y。输入:N1个图像样本在不同视角下的特征
Figure BDA0001294042310000082
输出:新的d维图像特征向量
Figure BDA0001294042310000083
迭代步骤如下:
(1)计算每个视角下的近邻矩阵
Figure BDA0001294042310000084
初始化参数
Figure BDA0001294042310000085
(2)重复步骤(3)和步骤(4)直到收敛;
(3)计算
Figure BDA0001294042310000086
的特征分解,取最小d个特征值对应的特征向量组成的矩阵U,令Y=UT=[u1,u2,…,ud]T
(4)利用
Figure BDA0001294042310000087
更新近邻矩阵的权值参数
Figure BDA0001294042310000088
多视角特征融合方法主要是为了得到独特性和区分性更强的图像特征,然后利用训练集图像的融合特征训练一个SVM[6]分类模型。
SVM是通过寻找最优的线性超平面,使得所有样本到该超平面有尽可能大的几何间隔,因为当超平面距离数据点的间隔越大时,分类结果的确信度就越大。为了寻找这样的超平面函数wTx+b=0,这种最大间隔分类器的目标函数可以定义为:
Figure BDA0001294042310000089
式(15)中的
Figure BDA00012940423100000810
为样本特征,
Figure BDA00012940423100000811
为样本标签,取值为1或-1。利用拉格朗日乘子法式(15)可以转化为
Figure BDA00012940423100000812
对上式求解可得
Figure BDA00012940423100000813
SVM的具体训练过程为:
(1)取训练集中的任意两类物体样本
Figure BDA00012940423100000814
Figure BDA00012940423100000815
是样本
Figure BDA00012940423100000816
的类别标签,取值为1或-1,令
Figure BDA00012940423100000817
sgn(.)为判别函数,
Figure BDA00012940423100000818
Figure BDA00012940423100000819
Figure BDA0001294042310000091
(2)求解w和b,其中
Figure BDA0001294042310000092
(3)再次任意选择两类不同的训练样本,重复步骤(2)和步骤(3),直到任意两类训练样本都训练出一个函数f(x);
(4)SVM的测试阶段:假设样本的特征向量为Y,带入每个函数f(x)中,确定每个函数对该样本的分类标签,通过投票的方法选择标签得票最多的类别作为该样本的最终类别。
实施例
为了验证本发明的可行性和有效性,在Matlab2014a软件平台进行了若干实验测试。图4是本发明对单个餐具的检测效果,从结果可以看出本发明能很好的检测出餐具的具体位置,同时能够准确的确定餐具的轮廓,并且可以将背景设置为黑色,排除背景对识别过程干扰。
为了进一步验证本发明的餐具检测效果,选用多个餐具进行实验测试,图5为本发明算法和单视角的餐具检测效果对比,其中(a)为摄像机拍摄的图片,(b)为单视角排序第二阶段的检测图,(c)为本文算法第二阶段的检测图,(d)为单视角最终的餐具检测图,(e)为本发明算法最终的餐具检测图。第一组图中,单视角排序检测出了3个餐具,本发明算法检测出了4个;第二组图中,单视角排序检测出了3个餐具,本发明算法检测出了5个餐具;第三组图中,单视角排序检测出了3个餐具,本发明算法检测出了4个餐具;第四组图中,单视角排序和本文算法都检测出了四个餐具,但是本发明算法的检测效果要优于单视角排序;第五组图中,单视角排序检测出了3个餐具,本发明算法检测出了4个餐具。通过对比,本发明算法在复杂环境下的餐具检测效果要好于单视角排序算法。
为了验证本发明的餐具分割算法的有效性,进行了大量实验。,图3可以看出本发明算法具有良好的分割效果。
为了验证本发明中特征融合方法在餐具识别中的有效性,在真实数据集中进行了若干实验,数据集总共有20种不同的餐具,每种餐具呈现不同的角度生成100幅图像。在表1中,选择每类图像中都抽取5、10、…、50幅图像作为训练集,其余作为测试集,进行餐具识别实验。从表1结果可见,随着训练样本的增多,餐具识别的准确率也逐渐提高。当该数据集中的训练样本选择50幅时,单视角中的HSV和MDS的识别准确率分别能达到0.974和0.945。而本发明算法在餐具识别过程中具有更强的区分性,识别率能达到0.983,高于单视角下的餐具识别效果。
表1本发明算法和单视角算法在SVM分类器中的识别结果
Figure BDA0001294042310000101
以上所述,仅为本实施例较佳的具体实施方式,但本实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本实施例揭露的技术范围内,根据本实施例的技术方案及其发明构思加以等同替换或改变,都应涵盖在本实施例的保护范围之内。

Claims (7)

1.一种基于多视角图模型的餐具检测和识别方法,其特征在于包括如下步骤:
S1、使用简单线性迭代聚类算法SLIC对选定的图像进行算法超像素分割,得到N个超像素点;
S2、分析超像素点的颜色直方图特征和所述超像素点间的颜色矩信息;以所述图像中所有的超像素点为节点,以所述超像素点间的位置关系确定连接边,以高斯核函数计算得出边权值,进而构建出超像素点的多视角图模型;
S3、设定图像一个边界的超像素点为背景超像素点,使用多视角排序算法,计算所述图像中剩余其它超像素点的相似性值/相似性特征向量f,完成第一阶段检测;
S4、根据所述的相似性值/相似性特征向量f,分别设定表示餐具的阈值t1和表示背景的阈值t2,计算图像中超像素点之间的相似性值
Figure FDA0003034012820000011
以该相似性
Figure FDA0003034012820000012
确定餐具检测图像,完成第二阶段检测;
S5、在所述图像中对餐具检测图像进行分割;
S6、建立以所述图像样本为节点,样本特征向量之间的距离为图模型的边的多视角图模型,得到特征融合后的图像样本的图形特征Y;
S7、将步骤S6得到所述的图形特征Y,输入到训练好的SVM模型,对待检测图像进行分析,得出待检测图像中的餐具种类,完成识别。
2.根据权利要求1所述的基于多视角图模型的餐具检测和识别方法,其特征还在于所述的SLIC对选定的图像进行算法超像素分割的过程如下:
S11、将所述的图像平均分割成k个部分,每部分为等面积的S×S的小区域,其中,
Figure FDA0003034012820000013
A为图像像素的个数;
S12、初始化每个小区域的中心为Ck=[lk,ak,bk,xk,yk]T,其中(xk,yk)为该小区域中梯度最小的点即f(x+1,y)+f(x,y+1)-2f(x,y)最小的点;
S13、根据式
Figure FDA0003034012820000014
计算每个像素点到步骤S12中Ck的距离,选取距离最小的中心点为该像素的中心,重新划分超像素区域,根据步骤S12在新划分的区域上重新确定新的小区域中心Ck,计算新的小区域中心Ck和旧的小区域中心Ck间的位置距离,其中,
Figure FDA0003034012820000021
m=15,ds为位置距离,dc为Lab距离;
S14、当新的中心Ck与旧的中心Ck的位置距离小于一个很小的阈值时输出超像素分割的结果,否则重复步骤S12~S13。
3.根据权利要求1所述的基于多视角图模型的餐具检测和识别方法,其特征还在于所述构建的超像素点的多视角图模型如下:
Figure FDA0003034012820000022
4.根据权利要求1所述的基于多视角图模型的餐具检测和识别方法,其特征还在于:所述的第一阶段检测具体过程如下:
S31、假设图像边缘的超像素点是背景信息,所以在该阶段的相似性学习过程中,设定初始的相似性值y=[y1,y2,…,yN]T;N为图像中像素点的总个数;
S32、设定图像上边界的超像素节点对应的初始相似性值为1;其它所有的超像素节点设置为0,通过假设多视角图模型学习得到的相似性值为f,将多视角排序算法的目标优化函数表示成:
Figure FDA0003034012820000023
将式(2)转换为矩阵形式为
Figure FDA0003034012820000024
其中,α(t)是每个视角下近邻矩阵的权重系数,参数μ>0是平衡目标函数中平滑约束项和拟合约束项,||·||2表示向量的2范数,Tr(·)表示矩阵的迹;L(t)=D(t)-W(t)是第t个视角下近邻矩阵所对应的拉普拉斯矩阵,
Figure FDA0003034012820000025
表示近邻矩阵W(t)的行和,在每个视角的权值α(t)中加入指数参数γ,可以通过调整γ的取值控制每个视角下近邻矩阵的权值;(1)计算每个视角下的近邻矩阵W(t),t=1,2,…m,初始化α(t)=1/m,f=y,
Figure FDA0003034012820000026
S33、当
Figure FDA0003034012820000031
时,执行步骤S34~S35,当
Figure FDA0003034012820000032
时,执行步骤S36;
S34、
Figure FDA0003034012820000033
利用
Figure FDA0003034012820000034
更新相似性特征向量f,其中I为单位矩阵;
S35、利用
Figure FDA0003034012820000035
更新近邻矩阵的权值参数α;
S36、返回相似性特征向量f;
其中,输入为通过HSV、颜色矩获得的近邻矩阵W(t)和初始相似性特征向量y=[y1,y2,…,yN]T;若yi为上边界的节点,则初始相似值为1,其它所有的超像素节点设置为0;参数γ用来调节各个视角之间的权重,参数μ为调节式
Figure FDA0003034012820000036
中的第一项和第二项权重,γ=3,μ=0.01。
5.根据权利要求4所述的基于多视角图模型的餐具检测和识别方法,其特征还在于:
迭代得到超像素点之间的相似性值为ft,第i个超像素点为目标的相似值可以表示成:
St(i)=1-ft(i),i=1,2,…,N (4)
分别将图像的下边界、左边界和右边界作为背景信息节点,设定相应的初始相似性特征向量,然后再利用多视角图模型的排序算法进行学习,依次分别确定出其对应的目标相似值Sb(i)、Sl(i)和Sr(i),然后将St(i)、Sb(i)、Sl(i)、Sl(i)这四个相似值进行整合得到整体的检测结果;
S1(i)=St(i)Sb(i)Sl(i)Sr(i),i=1,2,…,N (5)。
6.根据权利要求1所述的基于多视角图模型的餐具检测和识别方法,其特征还在于所述步骤S6中的图像样本的多视角图模型如下
Figure FDA0003034012820000037
其中,
Figure FDA0003034012820000038
表示第i个图像样本和第j个图像样本在第t个视角下的特征向量
Figure FDA0003034012820000039
Figure FDA00030340128200000310
之间的欧氏距离;
基于多视角融合学习的算法可以有如下的优化目标函数:
Figure FDA0003034012820000041
其中
Figure FDA0003034012820000042
是每个视角下近邻矩阵的权重系数,可以通过调整γ的取值控制每个视角下近邻矩阵的权值;同样,上式能够进一步转换成如下矩阵的形式:
Figure FDA0003034012820000043
Figure FDA0003034012820000044
是第
Figure FDA0003034012820000045
个视角下近邻矩阵所对应的的拉普拉斯矩阵,
Figure FDA0003034012820000046
表示近邻矩阵
Figure FDA0003034012820000047
的行和;约束条件YYT=I是为了唯一确定出融合后的图像特征向量Y,I表示单位矩阵。
7.根据权利要求6所述的基于多视角图模型的餐具检测和识别方法,其特征还在于对于所述参数
Figure FDA0003034012820000048
和Y,用迭代优化方法得到方程的解,过程如下:
固定参数Y,更新权值参数
Figure FDA0003034012820000049
利用拉格朗日乘子法带入优化约束
Figure FDA00030340128200000410
得到如下的表达式:
Figure FDA00030340128200000411
对优化函数
Figure FDA00030340128200000412
求对参数
Figure FDA00030340128200000413
偏导,
Figure FDA00030340128200000414
并令偏导等于0得到权值参数
Figure FDA00030340128200000415
的解为:
Figure FDA00030340128200000416
由于拉普拉斯矩阵
Figure FDA00030340128200000417
是半正定矩阵,显然参数
Figure FDA00030340128200000418
固定权值参数
Figure FDA00030340128200000419
更新参数Y,此时优化目标函数转化成
Figure FDA00030340128200000420
其中,矩阵
Figure FDA0003034012820000051
因为拉普拉斯矩阵
Figure FDA0003034012820000052
是对称的,所以矩阵
Figure FDA0003034012820000053
也是对称的;因此,根据Ky-Fan定理,优化方程的全局最优解可以通过矩阵
Figure FDA0003034012820000054
最小的d个特征值对应的特征向量来确定,其中Y=UT=[u1,u2,…,ud]T
使用迭代的方法求参数
Figure FDA0003034012820000055
和Y,
N1个图像样本在不同视角下的特征
Figure FDA0003034012820000056
输出:新的d维图像特征向量
Figure FDA0003034012820000057
Dt为特征维数;迭代步骤如下:
计算每个视角下的近邻矩阵
Figure FDA0003034012820000058
初始化参数
Figure FDA0003034012820000059
计算
Figure FDA00030340128200000510
的特征分解,取最小d个特征值对应的特征向量组成的矩阵U;
利用
Figure FDA00030340128200000511
更新近邻矩阵的权值参数
Figure FDA00030340128200000512
重复上述步骤直到收敛。
CN201710336657.9A 2017-05-13 2017-05-13 一种基于多视角图模型的餐具检测和识别方法 Active CN107239777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710336657.9A CN107239777B (zh) 2017-05-13 2017-05-13 一种基于多视角图模型的餐具检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710336657.9A CN107239777B (zh) 2017-05-13 2017-05-13 一种基于多视角图模型的餐具检测和识别方法

Publications (2)

Publication Number Publication Date
CN107239777A CN107239777A (zh) 2017-10-10
CN107239777B true CN107239777B (zh) 2021-06-15

Family

ID=59984982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710336657.9A Active CN107239777B (zh) 2017-05-13 2017-05-13 一种基于多视角图模型的餐具检测和识别方法

Country Status (1)

Country Link
CN (1) CN107239777B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862313B (zh) * 2017-10-20 2020-06-16 珠海格力电器股份有限公司 洗碗机及其控制方法和装置
CN107729851B (zh) * 2017-10-24 2020-12-29 湖北工业大学 一种中餐宴会台面摆台智能评分方法与系统
CN108230581A (zh) * 2017-12-23 2018-06-29 浙江行雨网络科技有限公司 一种无人超市商品结算的商品图像分割方法
CN108205664B (zh) * 2018-01-09 2021-08-17 美的集团股份有限公司 一种食物识别方法及装置、存储介质、计算机设备
CN108062837A (zh) * 2018-01-26 2018-05-22 浙江行雨网络科技有限公司 一种基于图像识别的无人值守超市商品结算系统
CN109886937B (zh) * 2019-01-29 2021-08-03 国家电网有限公司 基于超像素分割图像识别的绝缘子缺陷检测方法
CN109744971A (zh) * 2019-01-30 2019-05-14 佛山市云米电器科技有限公司 一种提高洗碗机洗涤效率的洗涤方法及其使用的洗碗机
CN114898193A (zh) * 2022-07-11 2022-08-12 之江实验室 基于流形学习的图像特征融合方法、装置及图像分类系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164858A (zh) * 2013-03-20 2013-06-19 浙江大学 基于超像素和图模型的粘连人群分割与跟踪方法
CN103942774A (zh) * 2014-01-20 2014-07-23 天津大学 一种基于相似性传播的多目标协同显著区域检测方法
CN104268592A (zh) * 2014-09-22 2015-01-07 天津理工大学 基于协同表示和判别准则的多视角联合动作词典学习方法
CN105976378A (zh) * 2016-05-10 2016-09-28 西北工业大学 基于图模型的显著性目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116741A1 (en) * 2015-10-26 2017-04-27 Futurewei Technologies, Inc. Apparatus and Methods for Video Foreground-Background Segmentation with Multi-View Spatial Temporal Graph Cuts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164858A (zh) * 2013-03-20 2013-06-19 浙江大学 基于超像素和图模型的粘连人群分割与跟踪方法
CN103942774A (zh) * 2014-01-20 2014-07-23 天津大学 一种基于相似性传播的多目标协同显著区域检测方法
CN104268592A (zh) * 2014-09-22 2015-01-07 天津理工大学 基于协同表示和判别准则的多视角联合动作词典学习方法
CN105976378A (zh) * 2016-05-10 2016-09-28 西北工业大学 基于图模型的显著性目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fast Multi-view Graph Kernels for Object Classification;Luming Zhang et al.;《Springer-Verlag Berlin Heidelberg 2011》;20111231;第570-579页 *
Saliency Detection via Graph-Based Manifold Ranking;Chuan Yang et al.;《The CVPR 2013》;20131231;第3166-3173页 *
SLIC Superpixels Compared to State-of-the-Art Superpixel Methods;Radhakrishna Achanta et al.;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20121130;第34卷(第11期);第2274-2281页 *
基于多特征融合技术的商品图像分类;甄泽冰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615;第2016年卷(第6期);第I138-1391页 *

Also Published As

Publication number Publication date
CN107239777A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239777B (zh) 一种基于多视角图模型的餐具检测和识别方法
CN106709568B (zh) 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
CN105894047B (zh) 一种基于三维数据的人脸分类系统
CN104008370B (zh) 一种视频人脸识别方法
CN109829449B (zh) 一种基于超像素时空上下文的rgb-d室内场景标注方法
Li et al. Expression-robust 3D face recognition via weighted sparse representation of multi-scale and multi-component local normal patterns
CN109389074A (zh) 一种基于人脸特征点提取的表情识别方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN105335725A (zh) 一种基于特征融合的步态识别身份认证方法
Wang et al. Head pose estimation with combined 2D SIFT and 3D HOG features
CN105760898A (zh) 一种基于混合组回归方法的视觉映射方法
Wang et al. Real-time hand posture recognition based on hand dominant line using kinect
CN109003291A (zh) 目标跟踪方法及装置
Lee Component-based face detection and verification
CN107784284B (zh) 人脸识别方法及系统
Hsu et al. Human body motion parameters capturing using kinect
Donoser et al. Robust planar target tracking and pose estimation from a single concavity
CN107423771B (zh) 一种两时相遥感图像变化检测方法
Wibowo et al. Visual tracking based on complementary learners with distractor handling
Rotem et al. Combining region and edge cues for image segmentation in a probabilistic gaussian mixture framework
Horvath et al. A higher-order active contour model of a ‘gas of circles’ and its application to tree crown extraction
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
Herranz-Perdiguero et al. In pixels we trust: from pixel labeling to object localization and scene categorization
Dou et al. Robust visual tracking based on joint multi-feature histogram by integrating particle filter and mean shift

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant