CN103412908B

CN103412908B - 一种基于相似性矩阵融合的音频数据检索方法

Info

Publication number: CN103412908B
Application number: CN201310332611.1A
Authority: CN
Inventors: 韩军伟; 吉祥; 郭雷; 胡新韬
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2016-08-10
Anticipated expiration: 2033-08-01
Also published as: CN103412908A

Abstract

本发明涉及一种基于相似性矩阵融合的音频数据检索方法，其特征在于：首先，计算不同种类音频数据特征的拉普拉斯矩阵；其次，计算不同种类音频数据拉普拉斯矩阵的特征值和特征向量，分别找出这些拉普拉斯矩阵中前M个最大特征值所对应的特征向量；第三，分别计算不同种类音频数据特征向量的相似性矩阵，将特征向量的相似性矩阵的对应元素相乘得到融合后的相似性矩阵，第四，对每个查询目标音频数据，利用融合后的相似性矩阵得到每个音频数据的分数，将音频数据按照分数从高到低排序，在前若干个排好序的音频数据中，统计其中与目标音频数据属于同一类别的音频数据数量，计算检索准确率。利用本发明方法，可以实现多种音频数据特征的融合检索，融合后的检索准确率比融合前有了大幅提高。

Description

一种基于相似性矩阵融合的音频数据检索方法

技术领域

本发明涉及一种基于相似性矩阵融合的音频数据检索方法，可以应用于不同种类音频数据的检索当中。

背景技术

互联网技术和音频技术的发展，使得音频数据的数量呈现几何式的增长，如何在海量的音频数据中检索出用户需要的音频数据成为多媒体技术中的热点和难点问题。国内外学者提出了多种特征来表示音频数据，使得音频数据检索更为准确。另外，许多用于音频数据检索的方法被提出来，这些方法也能提高音频数据检索的准确率。但是，这些方法大都基于单种特征进行检索，而且这些特征往往基于传统的音阶等特征，检索准确率难以得到进一步的提升。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于相似性矩阵融合的音频数据检索方法，融合多种音频特征的优势，提高音频数据检索技术的准确性。

技术方案

一种基于相似性矩阵融合的音频数据检索方法，其特征在于步骤如下：

步骤1：利用计算N个音频数据的特征X₁,X₂,...,X_N的相似性矩阵W₁；利用计算N个音频数据的特征Y₁,Y₂,...,Y_N的相似性矩阵W₂；

其中，X₁,X₂,...,X_N表示第1、2和N个音频数据的第一种特征；Y₁,Y₂,...,Y_N表示第1、2和N个音频数据的第二种特征；表示矩阵W₁第i行和第j列的元素；i＝1,2,...,N，j＝1,2,...,N,N＞0；σ＞0为常数；X_i,X_j表示第i个和第j个音频数据的第一种特征；上标T表示向量转置；表示矩阵W₂第i行和第j列的元素；Y_i,Y_j表示第i个和第j个音频数据的第二种特征；

步骤2：利用计算W₁的拉普拉斯矩阵L₁，利用计算W₂的拉普拉斯矩阵L₂；

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；表示矩阵W₁的第i行第t列的元素；D₂表示对角线矩阵，其元素

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；表示矩阵W₂的第i行第t列的元素；

步骤3：计算拉普拉斯矩阵L₁和L₂的特征值和特征向量，选取前M个最大特征值所对应的特征向量U₁,U₂,...,U_M和V₁,V₂,...,V_M；其中，M≥1表示常数；U₁,U₂,...,U_M表示属于L₁的大小为N×1的特征向量；V₁,V₂,...,V_M表示属于L₂的大小为N×1的特征向量；

步骤4：构造矩阵P＝[U₁ U₂...U_M]和Q＝[V₁ V₂...V_M]；计算[K₁ K₂...K_N]^T和[L₁L₂...L_N]^T的相似性矩阵S₁和S₂，S₁的元素计算公式为S₂的元素计算公式为

s_{i, j}^{2} = \exp \frac{{(L_{i} - L_{j})}^{T} \times (L_{i} - L_{j})}{σ^{2}};

其中，K₁,K₂,...,K_N表示矩阵P的第1,2,...,N行元素；L₁,L₂,...,L_N表示矩阵Q的第1,2,...,N行元素；表示矩阵S₁第i行和第j列的元素；表示矩阵S₂第i行和第j列的元素；

步骤5：将相似性矩阵S₁和S₂的对应元素相乘得到融合后的相似性矩阵S；

步骤6：利用公式r＝β(I-λS)^-1T计算N个音频数据检索的分数向量r，并将N个音频数据按照分数大小从高到低排列，得到排序后的N个音频数据；其中，r＝(r₁,r₂,...,r_N)表示N个音频数据利用融合后的相似性矩阵进行检索的得分向量，r₁,r₂,...,r_N表示第1,2,...,N个音频数据的得分；β＝1-λ表示常数；λ＞0表示常数；T＝[t₁,...,t_N]^T表示检索时的查询向量，t_i＝1表示第i个音频数据为所要查找的目标音频数据，否则t_i＝0。

在步骤6完成后统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q。

有益效果

本发明提出的一种基于相似性矩阵融合的音频数据检索方法，首先，计算不同种类音频数据特征的拉普拉斯矩阵；其次，计算不同种类音频数据拉普拉斯矩阵的特征值和特征向量，分别找出这些拉普拉斯矩阵中前M个最大特征值所对应的特征向量；第三，分别计算不同种类音频数据特征向量的相似性矩阵，将特征向量的相似性矩阵的对应元素相乘得到融合后的相似性矩阵；第四，对每个查询目标音频数据，利用融合后的相似性矩阵得到每个音频数据的分数，将音频数据按照分数从高到低排序，在前若干个排好序的音频数据中，统计其中与目标音频数据属于同一类别的音频数据数量，计算检索准确率。利用本发明方法，可以实现多种音频数据特征的融合检索，融合后的检索准确率比融合前有了大幅提高。

本发明提出的检索方法，能够融合不同种类音频数据特征的优点，然后得到更好的检索准确率。与使用单一特征检索相比，大大提高了音频数据检索的准确率。

附图说明

图1：本发明方法的基本流程图

图2：本发明方法的检索准确率

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：AMD Athlon 64×2 5000+计算机、2GB内存、256M显卡，运行的软件环境是：Matlab2009a和Windows XP。我们用Matlab软件实现了本发明提出的方法。

本发明具体实施如下：

本发明流程图如附图1所示。用于检索的264个音频数据包含三类，分别为：100个古典音频数据、100个流行音频数据和64个演讲音频数据。两种特征分别为高层特征和底层特征，具体步骤如下：

1、计算N＝264个音频数据的两种特征X₁,X₂,...,X_N和Y₁,Y₂,...,Y_N的拉普拉斯矩阵L₁和L₂，X₁,X₂,...,X_N表示第1、2和N个音频数据的高层特征；Y₁,Y₂,...,Y_N表示第1、2和N个音频数据的底层特征，具体方法如下：

(1)计算矩阵W₁，其元素计算公式为同理计算矩阵W₂，其元素计算公式为

w_{i, j}^{2} = \exp \frac{{(Y_{i} - Y_{j})}^{T} \times (Y_{i} - Y_{j})}{σ^{2}};

其中，表示矩阵W₁第i行和第j列的元素；i＝1,2,...,N，j＝1,2,...,N,N＝264，σ＝3；X_i,X_j表示第i个和第j个音频数据的第一种特征；上标T表示向量转置；表示矩阵W₂第i行和第j列的元素；Y_i,Y_j表示第i个和第j个音频数据的第二种特征；

(2)利用公式计算W₁的拉普拉斯矩阵L₁，同理，计算W₂的拉普拉斯矩阵

L_{2} = D_{2}^{- 1 / 2} W_{2} D_{2}^{- 1 / 2};

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；表示矩阵W₂的第i行第t列的元素；

2、计算拉普拉斯矩阵L₁和L₂的特征值和特征向量，选取前M个最大特征值所对应的特征向量U₁,U₂,...,U_M和V₁,V₂,...,V_M；

其中，M＝3；U₁,U₂,...,U_M表示属于L₁的大小为N×1的特征向量；V₁,V₂,...,V_M表示属于L₂的大小为N×1的特征向量，N＝264；

3、构造矩阵P＝[U₁ U₂...U_M]和Q＝[V₁ V₂...V_M]；计算[K₁ K₂...K_N]^T和[L₁L₂...L_N]^T的相似性矩阵S₁和S₂，S₁的元素计算公式为S₂的元素计算公式为

s_{i, j}^{2} = \exp \frac{{(L_{i} - L_{j})}^{T} \times (L_{i} - L_{j})}{σ^{2}};

其中，K₁,K₂,...,K_N表示矩阵P的第1,2,...,N行元素，N＝264；L₁,L₂,...,L_N表示矩阵Q的第1,2,...,N行元素；表示矩阵S₁第i行和第j列的元素；表示矩阵S₂第i行和第j列的元素；

4、将相似性矩阵S₁和S₂的对应元素相乘得到融合后的相似性矩阵S；

5、利用公式r＝β(I-λS)^-1T计算N＝264个音频数据检索的分数向量r，并将N个音频数据按照分数大小从高到低排列，得到排序后的N个音频数据；

其中，r＝(r₁,r₂,...,r_N)表示N＝264个音频数据的融合检索后的得分向量，r₁,r₂,...,r_N表示第1,2,...,N个音频数据的得分，N＝264；β＝1-λ表示常数；λ＝0.99；T＝[t₁,...,t_N]^T表示检索时的查询向量，t_i＝1表示第i个音频数据为所要查找的目标音频数据，否则t_i＝0；

6、统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q。

利用本算法对264个音频数据的两种特征进行融合检索，将264个音频数据中每个音频数据都作为所要查找的目标音频数据进行一次检索，将音频数据按照得分多少从高到低排列，在前5、10、15和20个音频数据内分别统计与目标音频数据属于同一类别的音频数据数量，计算检索准确率。对264个音频数据的检索准确率进行平均，得到264个音频数据的平均检索准确率。如附图2所示。作为对比，我们也使用高层特征和底层特征分别进行检索，将得到的检索准确率也显示在附图2中，从图中可以看出，融合后的高层特征和底层特征的检索准确率比融合前都有了大幅提高。其中，融合后的检索准确率比单独使用高层特征提高了12.6%，比单独使用底层特征提高了18.2%。

Claims

1.一种基于相似性矩阵融合的音频数据检索方法，其特征在于步骤如下：

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；表示矩阵W₂的第i行第t列的元素；

步骤4：构造矩阵P＝[U₁ U₂...U_M]和Q＝[V₁ V₂...V_M]；计算[K₁ K₂...K_N]^T和[L₁ L₂...L_N]^T的相似性矩阵S₁和S₂，S₁的元素计算公式为S₂的元素计算公式为

s_{i, j}^{2} = \exp \frac{{(L_{i} - L_{j})}^{T} \times (L_{i} - L_{j})}{σ^{2}};

2.根据权利要求1所述基于相似性矩阵融合的音频数据检索方法，其特征在于：在步骤6完成后统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q。