CN108520758B - 一种视听觉跨模态物体材质检索方法及系统 - Google Patents

一种视听觉跨模态物体材质检索方法及系统 Download PDF

Info

Publication number
CN108520758B
CN108520758B CN201810296069.1A CN201810296069A CN108520758B CN 108520758 B CN108520758 B CN 108520758B CN 201810296069 A CN201810296069 A CN 201810296069A CN 108520758 B CN108520758 B CN 108520758B
Authority
CN
China
Prior art keywords
picture
matrix
training sample
sound
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810296069.1A
Other languages
English (en)
Other versions
CN108520758A (zh
Inventor
刘华平
刘卓锟
王博文
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810296069.1A priority Critical patent/CN108520758B/zh
Publication of CN108520758A publication Critical patent/CN108520758A/zh
Application granted granted Critical
Publication of CN108520758B publication Critical patent/CN108520758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。该系统包括:照相机、麦克风和计算机;该方法首先对材质分类建立图片检索库,对检索库中每个物体敲击采集声音信号,建立训练样本数据集;提取训练样本特征,得到训练样本数据集的声音特征矩阵;对图片检索库提取图片特征,得到检索库图片特征矩阵,分别对两个矩阵降维得到对应投影向量矩阵;检索时,分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵,计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明可弥补仅依靠文字图片识别物体材质的不足之处,得到更准确的物体材质识别结果。

Description

一种视听觉跨模态物体材质检索方法及系统
技术领域
本发明提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。
背景技术
在人类的日常生活中,人们不仅使用视觉进行物体识别,而且还使用听觉,触觉和嗅觉等其它感官共同作用。当我们听到轰隆隆的雷声,可能预示即将到来的一场大雨;购买西瓜时,通过判断敲击西瓜产生的声音来判断西瓜成熟与否;中医诊断“望、闻、问、切”中的“闻”和西医使用听诊器听病人的心跳声来判断病人身体状况等等,都是声音在我们日常的生产生活中的应用。
加入声音特征给我们对物体的认知提供了补充信息。随着网络技术的发展,网络购物成为我们生活不可缺少的一部分,但目前的网上购物消费者只能得到购买物体的文字和图片信息,这有时对于消费者而言并不能在大脑完整构建商品的特征信息,导致可能购买到与需求不符的商品。同样的问题也存在于机器人系统。传统的基于视觉信息的识别检索系统对遮挡和光照变化等因素非常敏感在,一些情况下,视觉信息本身不足以识别一个对象。比如在深海和太空探索领域,仅凭摄像机反馈回来的视频和图像不足以让人们确定该物体材质信息,但加入声音反馈后,增加了人类对未知物体的认知。随着机器人技术的不断发展,机器人能够实现与人类或物体进行交互获取更多信息。如何利用多模态信息进行目标识别已经成为一个重要的研究课题。
目前关于图像的检索技术发展比较成熟,关于声音的检索技术也只是涉及人类的语音检索技术,还没有使用作用于物体产生的声音进行检索的相关技术和应用。已存在的利用声音识别材质的装置,存在选取特征单一,识别范围有限的问题,只能实现单一物体的识别,不能实现多个检索结果的功能。
不管是图像还是声音的处理,特征的好坏决定了最终的结果。常用的声学特征有线性预测系数LPC,倒谱系数CEP,梅尔倒谱系数MFCC。声音特征提取的本质就是降维,用较少的维数来表现说话人的特征。梅尔倒谱系数是一种充分利用人耳感知特性的参数。这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
梯度直方图特征HOG在模式识别领域得到成功应用,如人脸识别、行人检测、目标跟踪等。HOG特征的计算是基于一致空间的密度矩阵来提高准确率。具有计算量小应用广泛的特点。
典型相关分析CCA是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种视听觉跨模态物体材质检索方法及系统。本发明通过采集敲击物体产生的声音信号,得出相似的一种或几种物体的图片得到物体材质的检索结果,可弥补仅依靠视觉或文字图片识别物体材质的不足之处,得到更为准确的物体材质识别结果。
本发明提出一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:
1)材质分类并建立图片检索库;具体步骤如下:
1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;
1-2)使用照相机拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;
2)构建训练样本数据集;具体步骤如下:
2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2-10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;
2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;
2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;
3)对训练样本数据集进行预处理;具体步骤如下:
3-1)利用普减法对每个训练样本进行去噪;
3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:
H(z)=1-μz-1
式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;
3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;
4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:
4-1)对每个训练样本提取时域特征;
对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:
Figure GDA0003007019100000031
Figure GDA0003007019100000032
Figure GDA0003007019100000033
式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:
Figure GDA0003007019100000034
4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征;具体步骤如下:
4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:
X(i,k)=FFT[yi(n)]
式中,X(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线,FFT为快速傅里叶变换;
4-2-2)把每帧能量[X(i,k)]2通过梅尔滤波器,与梅尔滤波器的频域响应Hm(k)相乘并相加,表达式如下:
Figure GDA0003007019100000041
式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,Hm(k)表达式如下:
Figure GDA0003007019100000042
式中,
Figure GDA0003007019100000043
f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;
4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:
Figure GDA0003007019100000044
式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc;
4-2-4)计算每个训练样本的一阶差分系数矩阵;
对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下:
Figure GDA0003007019100000045
式中,θ表示一阶导数的时间差,得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′;
4-3)特征融合,得到每个训练样本的声音特征系数矩阵;;
将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度为N×(3+2Q),组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数,对每一列特征系数求取平均值,最后得到该训练样本的1×(3+2Q)维声音特征系数矩阵;
4-4)将所有训练样本的声音特征系数矩阵合并,得到训练样本数据集的声音特征矩阵X;
5)对图片检索库的每张图片进行图片特征提取,得到检索库图片特征矩阵;具体步骤如下:
5-1)从图片检索库C中任意选取一张图片,对该图片按照每16×16个像素作为一个细胞单元进行划分;
5-2)计算步骤5-1)选取的图片每个细胞单元中的每个像素点的梯度幅值和梯度方向,梯度算子使用简单算子[-1,0,1],[1,0,-1]T,对图片进行卷积运算;
分别计算像素点沿x轴方向上的梯度值Gx和沿y轴方向上的梯度值Gy,表达式如下:
Gx=H(x+1,y)-H(x-1,y)
Gy=H(x,y+1)-H(x,y-1)
其中,H(x,y)表示图片在像素点(x,y)处的像素值;像素点(x,y)处的梯度和梯度方向如下所示:
Figure GDA0003007019100000051
Figure GDA0003007019100000052
其中,δ(x,y)为像素点(x,y)处的梯度,γ(x,y)为像素点(x,y)处的梯度方向;
5-3)将细胞单元的梯度方向360度平均分成9个梯度方向,将每个细胞单元上所有相同梯度方向的像素点的梯度幅值加权累加,加权投影所用的权值为当前像素点的梯度幅值,得到该细胞单元的梯度方向直方图,即该细胞单元对应的9维特征向量;
5-4)将步骤5-1)选取的图片中按每2×2个细胞单元合成一个网格区域,将每个网格区域中4个细胞单元的梯度直方图连接起来,得到一个网格区域的4×9=36维的梯度直方图特征;连接所有网格区域的直方图特征,最终得到该图片对应的105×36=3780维梯度直方图HOG特征;
5-5)重复步骤5-1)至步骤5-4),得到图片检索库C所有图片对应的HOG特征,将所有的HOG特征合并,得到检索库图片特征矩阵Y;
6)利用典型相关分析对步骤4)得到的训练样本数据集的声音特征矩阵和步骤5)得到的检索库图片特征矩阵进行降维处理;
将X和Y表示为各自特征的线性组合:
U=Xa
V=Yb
其中,U为降维后的训练样本数据集的声音特征矩阵,V为降维后的检索库图片特征矩阵;a为声音特征矩阵对应的投影向量矩阵,b为图片特征矩阵对应的投影向量矩阵;
X和Y的协方差矩阵为:
Figure GDA0003007019100000061
则U和V的协方差矩阵表示为:
Figure GDA0003007019100000062
U和V的相关系数ρ表达式如下:
Figure GDA0003007019100000063
当ρ达到最大时,通过构造拉格朗日函数求解投影向量矩阵a和b;
7)物体材质检索;具体步骤如下:
7-1)任意选取一个测试物体,重复步骤2-1),采集该测试物体的声音信号,以wav格式保存在计算中作为测试样本;
7-2)重复步骤3-1)至步骤4-3),得到该测试样本对应的1×(3+2Q)维声音特征系数矩阵T;
7-3)将步骤7-2)得到的测试样本声音特征系数矩阵T乘以步骤6)得到的声音特征矩阵对应的投影向量矩阵a,得到降维后的测试样本声音特征矩阵T’;
7-4)在图片检索库C中随机挑选每个具体物体对应的1张图片,得到由A×B张图片组成检索结果展示集W;重复步骤5),提取W对应的图片特征矩阵,得到A×B×3780维图片特征矩阵,将该矩阵与步骤6)得到的图片特征矩阵对应的投影向量矩阵b相乘得到降维后的检索结果展示集图像特征矩阵W’;
7-5)计算步骤7-3)得到的T’和步骤7-4)得到的W’的欧氏距离,共得到A×B个欧氏距离;
7-6)将步骤7-5)得到的结果按照升序排列,选取前R个结果对应的检索结果展示集图片即为检索得到的与测试物体最相似的图片,2≤R≤4;
7-7)计算机输出步骤7-6)得到的R个结果对应的图片并在显示器上进行显示作为测试物体的材质检索结果,检索完成。
本发明的技术特点及有益效果在于:
1、本发明的一种视听觉跨模态物体材质检索方法,通过对采集的声音信号进行数据处理,特征提取,筛选融合,检索相似物体图片,实现从声音到图片的跨模态材质检索,可弥补仅依靠视觉或文字图片识别物体材质的不足之处,可以更好体现物体材质特点,得到更为准确的物体材质识别结果。本发明可应用于网络购物,弥补图片和文字对物体表征的不足,进一步满足消费者的需求。
2、本发明系统设计出用于跨模态物体材质检索的图形界面,可以实时显示采集的声音时域信号,同时完成对声音信号的处理,可以反馈检索结果的图片,实现跨模态检索过程。
3、本发明提出了一种声音时域和频域多特征融合的特征提取方法,使检索的结果更加准确。
4、本发明构架了多种材质的声音特征数据作为训练样本数据集,随着选用的物体不断增多,可以不断扩充训练集形成一个数据库,尽可能多的满足检索结果的广泛性和准确性。
具体实施方式
本发明提出一种视听觉跨模态物体材质检索方法及系统,下面结合具体实施例进一步详细说明如下。
本发明提出一种视听觉跨模态物体材质检索方法,包括以下步骤:
1)材质分类并建立图片检索库;具体步骤如下:
1-1)将物体根据材质的不同分为金属,塑料,棉麻,木材,陶瓷,玻璃,纸质,砖石等A大类(本实施例设置为8)材质,并在每大类材质中根据不同小类材质选取B种(本实施例设置为4)具体物体,例如金属材质挑选铜,铁,铝,不锈钢四种物体,共得到A×B种不同具体物体(本实施例共计32种物体)。物体大类材质和小类材质的类别越多越好,选取的物体皆为生活常见物体,形状和大小任意。
1-2)使用照相机(照相机型号无特殊要求,本实施例采用小米5手机自带相机拍摄,拍摄的每张图片像素为2592×4608)拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片(保证图片中被拍摄物体占据图片面积四分之三以上),用画图工具调整所拍图片像素为128×256,将调整后的所有图片组成图片检索库C(本实施例的图片检索库C中包含32×10张图片)。
2)构建训练样本数据集;具体步骤如下:
2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,该物体与步骤1)拍摄图片的具体物体一致,使用金属棒(无特殊要求,本实施例选取长30cm,直径0.5cm的铁棒)敲击该物体表面一次,施加力的范围为2-10N,并用麦克风(型号无特殊要求,本实施例为联想笔记本Y400内嵌麦克风)对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;
2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作(10≤D≤20,本实施例D=10),保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;
2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;本实施例得到P=32×10个声音信号的训练样本作为训练样本数据集;
3)对训练样本数据集进行预处理;具体步骤如下:
3-1)利用普减法对每个训练样本进行去噪;
通过麦克风采集的声音信号的训练样本很容易收到周围环境噪声的影响,因使用之前需要进行去噪处理,本发明采用谱减法去除噪声。
3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:
H(z)=1-μz-1
式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;
3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,一般帧长为20ms到30ms(本实施例取30ms),每帧包含L个数据点,则L=44100×30/1000=1323,帧移一般为L的1/2或1/3,本实施例取1/2L,则帧移为441个数据点,则每个训练样本划分后的初始音频数据为N帧(本实施例N=196)。然后再将每一帧数据乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L。
4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:
4-1)对每个训练样本提取时域特征;
对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1(本实施例为196×1)的短时能量矩阵E,N×1(本实施例为196×1)短时平均幅度矩阵M和N×1(本实施例为196×1)短时平均过零率矩阵Z;表达式分别如下:
Figure GDA0003007019100000091
Figure GDA0003007019100000092
Figure GDA0003007019100000093
式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:
Figure GDA0003007019100000094
4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征,具体步骤如下:4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:
x(i,k)=FFT[yi(n)]
式中,x(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线。FFT为快速傅里叶变换。
4-2-2)计算通过Mel梅尔滤波器的能量;
把每帧能量,即[x(i,k)]2通过Mel滤波器,与Mel滤波器的频域响应Hm(k)相乘并相加,表达式如下:
Figure GDA0003007019100000095
式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,通常M取值在22-26之间,此实施例中M此处取24,Hm(k)表达式如下:
Figure GDA0003007019100000101
式中,
Figure GDA0003007019100000102
f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1。
4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:
Figure GDA0003007019100000103
式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,本实例中Q取12,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc(本实施例为196×12)。
4-2-4)计算每个训练样本的一阶差分系数矩阵;
标准的倒谱参数MFCC只反映了声音参数的静态特性,动态特性可以用这些静态特征的差分谱来描述,把动、静态特征结合起来才能有效提高系统的识别性能,所以本实例又对每个训练样本的每一帧声音数据求得Q维(本实施例Q=12)一阶差分系数矩阵,表达式如下:
Figure GDA0003007019100000104
式中,θ表示一阶导数的时间差,此处θ取1。可以得到该训练样本N×Q(本实施例为196×12)的特征矩阵一阶差分系数矩阵mfcc′。
4-3)特征融合,得到每个训练样本的声音特征系数矩阵;
将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度为N×(3+2Q)(本实施例为196×27),组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数,对每一列特征系数求取平均值,最后得到该训练样本的(3+2Q)(本实施例为27)维声音特征系数矩阵。
4-4)将所有训练样本的声音特征系数合并,得到训练样本数据集的声音特征矩阵X;本实施例中,得到训练样本数据集的声音特征系数矩阵X为320×27维。
5)对图片检索库的每张图片进行图片特征提取,得到检索库图片特征矩阵;
本发明中图片特征选取梯度直方图特征(HOG),具体步骤如下:
5-1)从图片检索库C中任意选取一张图片,对该图片按照每16×16个像素作为一个细胞单元进行划分,本实施例每张调整后的图片像素大小为128×256,则将其分8×16个细胞单元。
5-2)计算步骤5-1)选取的图片每个细胞单元中的每个像素的梯度幅值和梯度方向,梯度算子使用简单算子[-1,0,1],[1,0,-1]T,对图片进行卷积运算;
分别计算像素点沿x轴方向上的梯度值Gx和沿y轴方向上的梯度值Gy,表达式如下:
Gx=H(x+1,y)-H(x-1,y)
Gy=H(x,y+1)-H(x,y-1)
其中,H(x,y)表示图片在像素点(x,y)处的像素值。像素点(x,y)处的梯度和梯度方向如下所示:
Figure GDA0003007019100000111
Figure GDA0003007019100000112
其中,δ(x,y)为像素点(x,y)处的梯度,γ(x,y)为像素点(x,y)处的梯度方向,Gx为像素点沿x轴方向上的梯度值,Gy为像素点沿y轴方向上的梯度值。
5-3)将细胞单元的梯度方向360度平均分成9个梯度方向,将每个细胞单元上所有相同梯度方向的像素点的梯度幅值加权累加,加权投影所用的权值为当前像素点的梯度幅值,得到该细胞单元的梯度方向直方图,即该细胞单元对应的9维特征向量。
5-4)将步骤5-1)选取的图片中按每2×2个细胞单元合成一个网格区域,本实施例的每张图片得到(8-1)×(16-1)=105个网格区域。将每个网格区域中4个细胞单元的梯度直方图连接起来,得到一个网格区域的4×9=36维的梯度直方图特征。连接所有网格区域的直方图特征得到105×36图片特征,最终得到该图片对应的r(本实施例为3780)维HOG特征。
5-5)重复步骤5-1)至步骤5-4),得到图片检索库C所有图片对应的HOG特征,将所有的HOG特征合并,得到检索库所有图片特征矩阵Y,则本实施例Y为320×3780维。
6)利用典型相关分析对步骤4)得到的训练样本数据集的声音特征矩阵(本实施例为320×27)和步骤5)得到的检索库图片特征矩阵(本实施例为320×3780)进行降维处理;
将X和Y表示为各自特征的线性组合:
U=Xa
V=Yb
其中,U为降维后的训练样本数据集的声音特征矩阵,V为降维后的检索库图片特征矩阵。a为声音特征矩阵对应的投影向量矩阵,b为图片特征矩阵对应的投影向量矩阵。
X和Y的协方差矩阵为:
Figure GDA0003007019100000121
则U和V的协方差矩阵可表示为:
Figure GDA0003007019100000122
U和V的相关系数ρ表达式如下:
Figure GDA0003007019100000123
当ρ达到最大时,通过构造拉格朗日函数求解投影向量矩阵a和b,本实施例选取投影向量矩阵列向量长度为10,则a的维度为27×10,b的维度为3780×10。
则降维后的训练样本数据集的声音特征矩阵U=Xa(U的维度为320×10),降维后的检索库图片特征矩阵V=Yb(V的维度为320×10)。
7)物体材质检索;具体步骤如下:
7-1)任意选取一个测试物体(任意物体,可与训练样本集的物体不同),重复步骤2-1),采集该测试物体的声音信号,以wav格式保存在计算中作为测试样本;
7-2)重复步骤3-1)至步骤4-3),得到该测试样本对应的1×(3+2Q)维(本实施例Q=12)声音特征系数矩阵T;
7-3)将步骤7-2)得到的测试样本声音特征系数矩阵T乘以步骤6)得到的声音特征矩阵对应的投影向量矩阵a,得到降维后的测试样本声音矩阵T’(T’的维度为1×10)。
7-4)在图片检索库C中32个具体物体的照片随机挑选每个具体物体对应的1张图片,得到由A×B张(本实施例为32张)图片组成检索结果展示集W;重复步骤5),提取W对应的图片特征矩阵,得到A×B×3780维图片特征矩阵(本实施为32×3780维),将该矩阵与步骤6)得到的图片特征矩阵对应的投影向量矩阵b相乘得到降维后的检索结果展示集图像特征矩阵W’(W’的维度为32×10)。
7-5)计算步骤7-3)得到的T’和步骤7-4)得到的W’的欧氏距离,共得到A×B个(本实施例为32个)欧氏距离;
7-6)将步骤7-5)得到的结果按照升序排列,选取前R(R为检索结果的数量,2≤R≤4,本实施例R=3)个结果对应的检索结果展示集图片即为检索得到的与测试物体最相似的图片。
7-7)计算机输出步骤7-6)得到的R个结果对应的图片(来自步骤7-4)得到的检索结果展示集)并在显示器上进行显示作为测试物体的材质检索结果,检索完成。(本发明中使用MATLAB设计图形界面,通过界面输出检索得到的R个类别标签所对应的图片)。
本发明提出的一种基于如上述方法的跨模态物体材质检索系统,包括:照相机、麦克风和计算机。所述照相机用于拍摄物体图片并发送给计算机保存;所述麦克风用于采集敲击物体表面产生的声音信号并发送给计算机保存;所述计算机用于对接收到的图片和声音信号进行数据处理和分析,检索得到物体材质对应的图片结果并进行实时显示。
所述计算机中安装有MATLAB程序和用于跨模态物体材质检索的图形界面;所述用于跨模态物体材质检索的图形界面由MATLAB制作完成,包含以下内容:
“开始”按钮:被按下后,操作者使用金属棒敲击待进行材质检索物体表面一次,记录敲击物体表面产生的声音信号并发送至计算机以wav格式保存;
“检索”按钮:被按下后,计算机对采集到的声音信号进行处理,进行物体材质检索;
声音信号展示窗:用于对采集到的声音信号进行实时显示;
检索结果展示窗:该窗口根据需要可以设为R个,用于展示R个物体材质检索结果对应的图片。
上述图形界面本领域技术人员通过编程即可实现。
所述计算机可采用普通型号的计算机,本实施例选用联想笔记本电脑Y400。
所述麦克风可为任意型号,本实施例为笔记本自带麦克风,可将采集到的声音信号直接记录在计算机中。
所述照相机为常规产品,本实施例中,照相机无需连接计算机,只需用USB连接线将拍摄好的照片提前储存在笔记本电脑中。本实例采用小米5手机自带相机拍摄。

Claims (3)

1.一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:
1)材质分类并建立图片检索库;具体步骤如下:
1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;
1-2)使用照相机拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;
2)构建训练样本数据集;具体步骤如下:
2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2-10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;
2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;
2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;
3)对训练样本数据集进行预处理;具体步骤如下:
3-1)利用普减法对每个训练样本进行去噪;
3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:
H(z)=1-μz-1
式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;
3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;
4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:
4-1)对每个训练样本提取时域特征;
对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:
Figure FDA0002969086830000021
Figure FDA0002969086830000022
Figure FDA0002969086830000023
式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:
Figure FDA0002969086830000024
4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征;具体步骤如下:
4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:
X(i,k)=FFT[yi(n)]
式中,X(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线,FFT为快速傅里叶变换;
4-2-2)把每帧能量[X(i,k)]2通过梅尔滤波器,与梅尔滤波器的频域响应Hm(k)相乘并相加,表达式如下:
Figure FDA0002969086830000025
式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,Hm(k)表达式如下:
Figure FDA0002969086830000026
式中,
Figure FDA0002969086830000027
f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;
4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:
Figure FDA0002969086830000031
式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc;
4-2-4)计算每个训练样本的一阶差分系数矩阵;
对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下:
Figure FDA0002969086830000032
式中,θ表示一阶导数的时间差,得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′;
4-3)特征融合,得到每个训练样本的声音特征系数矩阵;;
将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度为N×(3+2Q),组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数,对每一列特征系数求取平均值,最后得到该训练样本的1×(3+2Q)维声音特征系数矩阵;
4-4)将所有训练样本的声音特征系数矩阵合并,得到训练样本数据集的声音特征矩阵X;
5)对图片检索库的每张图片进行图片特征提取,得到检索库图片特征矩阵;具体步骤如下:
5-1)从图片检索库C中任意选取一张图片,对该图片按照每16×16个像素作为一个细胞单元进行划分;
5-2)计算步骤5-1)选取的图片每个细胞单元中的每个像素点的梯度幅值和梯度方向,梯度算子使用简单算子[-1,0,1],[1,0,-1]T,对图片进行卷积运算;
分别计算像素点沿x轴方向上的梯度值Gx和沿y轴方向上的梯度值Gy,表达式如下:
Gx=H(x+1,y)-H(x-1,y)
Gy=H(x,y+1)-H(x,y-1)
其中,H(x,y)表示图片在像素点(x,y)处的像素值;像素点(x,y)处的梯度和梯度方向如下所示:
Figure FDA0002969086830000041
Figure FDA0002969086830000042
其中,δ(x,y)为像素点(x,y)处的梯度,γ(x,y)为像素点(x,y)处的梯度方向;5-3)将细胞单元的梯度方向360度平均分成9个梯度方向,将每个细胞单元上所有相同梯度方向的像素点的梯度幅值加权累加,加权投影所用的权值为当前像素点的梯度幅值,得到该细胞单元的梯度方向直方图,即该细胞单元对应的9维特征向量;
5-4)将步骤5-1)选取的图片中按每2×2个细胞单元合成一个网格区域,将每个网格区域中4个细胞单元的梯度直方图连接起来,得到一个网格区域的4×9=36维的梯度直方图特征;连接所有网格区域的直方图特征,最终得到该图片对应的105×36=3780维梯度直方图HOG特征;
5-5)重复步骤5-1)至步骤5-4),得到图片检索库C所有图片对应的HOG特征,将所有的HOG特征合并,得到检索库图片特征矩阵Y;
6)利用典型相关分析对步骤4)得到的训练样本数据集的声音特征矩阵和步骤5)得到的检索库图片特征矩阵进行降维处理;
将X和Y表示为各自特征的线性组合:
U=Xa
V=Yb
其中,U为降维后的训练样本数据集的声音特征矩阵,V为降维后的检索库图片特征矩阵;a为声音特征矩阵对应的投影向量矩阵,b为图片特征矩阵对应的投影向量矩阵;
X和Y的协方差矩阵为:
Figure FDA0002969086830000043
则U和V的协方差矩阵表示为:
Figure FDA0002969086830000044
U和V的相关系数ρ表达式如下:
Figure FDA0002969086830000045
当ρ达到最大时,通过构造拉格朗日函数求解投影向量矩阵a和b;
7)物体材质检索;具体步骤如下:
7-1)任意选取一个测试物体,重复步骤2-1),采集该测试物体的声音信号,以wav格式保存在计算中作为测试样本;
7-2)重复步骤3-1)至步骤4-3),得到该测试样本对应的1×(3+2Q)维声音特征系数矩阵T;
7-3)将步骤7-2)得到的测试样本声音特征系数矩阵T乘以步骤6)得到的声音特征矩阵对应的投影向量矩阵a,得到降维后的测试样本声音特征矩阵T’;
7-4)在图片检索库C中随机挑选每个具体物体对应的1张图片,得到由A×B张图片组成检索结果展示集W;重复步骤5),提取W对应的图片特征矩阵,得到A×B×3780维图片特征矩阵,将该矩阵与步骤6)得到的图片特征矩阵对应的投影向量矩阵b相乘得到降维后的检索结果展示集图像特征矩阵W’;
7-5)计算步骤7-3)得到的T’和步骤7-4)得到的W’的欧氏距离,共得到A×B个欧氏距离;
7-6)将步骤7-5)得到的结果按照升序排列,选取前R个结果对应的检索结果展示集图片即为检索得到的与测试物体最相似的图片,2≤R≤4;
7-7)计算机输出步骤7-6)得到的R个结果对应的图片并在显示器上进行显示作为测试物体的材质检索结果,检索完成。
2.一种基于如权利要求1所述方法的跨模态物体材质检索系统,其特征在于,包括:照相机、麦克风和计算机;所述照相机用于拍摄物体图片并发送给计算机保存;所述麦克风用于采集敲击物体表面产生的声音信号并发送给计算机保存;所述计算机用于对接收到的图片和声音信号进行数据处理和分析,检索得到物体材质对应的图片结果并进行实时显示。
3.如权利要求2所述的系统,其特征在于,还包括在所述计算机中安装有用于跨模态物体材质检索的图形界面,所述界面包含以下内容:
“开始”按钮:被按下后,操作者使用金属棒敲击待进行材质检索物体表面一次,记录敲击物体表面产生的声音信号并发送至计算机以wav格式保存;
“检索”按钮:被按下后,计算机对采集到的声音信号进行处理,进行物体材质检索;
声音信号展示窗:用于对采集到的声音信号进行实时显示;
检索结果展示窗:用于展示物体材质检索结果对应的图片。
CN201810296069.1A 2018-03-30 2018-03-30 一种视听觉跨模态物体材质检索方法及系统 Active CN108520758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810296069.1A CN108520758B (zh) 2018-03-30 2018-03-30 一种视听觉跨模态物体材质检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810296069.1A CN108520758B (zh) 2018-03-30 2018-03-30 一种视听觉跨模态物体材质检索方法及系统

Publications (2)

Publication Number Publication Date
CN108520758A CN108520758A (zh) 2018-09-11
CN108520758B true CN108520758B (zh) 2021-05-07

Family

ID=63431400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810296069.1A Active CN108520758B (zh) 2018-03-30 2018-03-30 一种视听觉跨模态物体材质检索方法及系统

Country Status (1)

Country Link
CN (1) CN108520758B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109281129B (zh) * 2018-12-03 2020-12-15 义乌市泽宣科技有限公司 洗衣筒定时设置平台
CN109977258A (zh) * 2019-02-21 2019-07-05 中国科学院西安光学精密机械研究所 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110659676A (zh) * 2019-09-09 2020-01-07 卓尔智联(武汉)研究院有限公司 一种信息处理方法、装置和存储介质
CN111640451B (zh) * 2020-05-07 2023-01-31 Oppo广东移动通信有限公司 一种成熟度评估方法及装置、存储介质
CN113286244B (zh) * 2021-05-12 2022-08-26 展讯通信(上海)有限公司 一种麦克风异常检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2528054A2 (en) * 2011-05-26 2012-11-28 Yamaha Corporation Management of a sound material to be stored into a database
CN106970707A (zh) * 2017-03-30 2017-07-21 珠海市魅族科技有限公司 针对触控操作的反馈方法、反馈装置和触控终端
CN107478722A (zh) * 2017-05-18 2017-12-15 中北大学 一种新型共振声学无损检测装置
CN107545902A (zh) * 2017-07-14 2018-01-05 清华大学 一种基于声音特征的物品材质识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2528054A2 (en) * 2011-05-26 2012-11-28 Yamaha Corporation Management of a sound material to be stored into a database
CN106970707A (zh) * 2017-03-30 2017-07-21 珠海市魅族科技有限公司 针对触控操作的反馈方法、反馈装置和触控终端
CN107478722A (zh) * 2017-05-18 2017-12-15 中北大学 一种新型共振声学无损检测装置
CN107545902A (zh) * 2017-07-14 2018-01-05 清华大学 一种基于声音特征的物品材质识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Multimodal Feature-Based Surface Material Classification";Matti Strese et al.;《IEEE Transactions on Haptics》;20161107;第10卷(第2期);全文 *

Also Published As

Publication number Publication date
CN108520758A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520758B (zh) 一种视听觉跨模态物体材质检索方法及系统
CN109212597B (zh) 基于深度信念网络和扫描叠加的微震源自动定位方法
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
US20130089304A1 (en) Video concept classification using video similarity scores
EP2642427A2 (en) Video concept classification using temporally-correlated grouplets
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
Zhang et al. Spectrogram-frame linear network and continuous frame sequence for bird sound classification
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN112289326B (zh) 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
Huang et al. Intelligent feature extraction and classification of anuran vocalizations
CN109192224A (zh) 一种语音评测方法、装置、设备及可读存储介质
CN115878832B (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
Dong et al. A novel representation of bioacoustic events for content-based search in field audio data
CN115273904A (zh) 一种基于多特征融合的愤怒情绪识别方法及装置
Nishizaki et al. Signal classification using deep learning
Xiao et al. AMResNet: An automatic recognition model of bird sounds in real environment
CN113053361A (zh) 语音识别方法、模型训练方法、装置、设备及介质
CN107894837A (zh) 动态情感分析模型样本处理方法及装置
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
Ruiz-Muñoz et al. Enhancing the dissimilarity-based classification of birdsong recordings
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN113990303A (zh) 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant