CN106057211A

CN106057211A - 一种信号匹配方法及装置

Info

Publication number: CN106057211A
Application number: CN201610373420.3A
Authority: CN
Inventors: 徐波
Original assignee: Guangzhou Duoyi Network Co Ltd
Current assignee: Guangzhou Duoyi Network Co Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-10-26
Anticipated expiration: 2036-05-27
Also published as: CN106057211B

Abstract

本发明涉及一种信号匹配方法，其包括以下步骤：S1：对参考信号x(t)和目标信号y(t)分别进行预处理；S2：对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换，分别得出频域参考信号X(f,m)和目标信号Y(f,m)；S3：进行估计本底噪声；S4：进行二值化处理；S5：获得匹配位置；S6：原出相应的时域信号x_p(t)；S7：分别对该时域信号x_p(t)和目标信号y(t)进行分频，分别得出若干个频带；S8：计算每个频带的相关系数；S9：对上述每个频带的相关系数进行加权计算，获取相关系数序列，并选取其最大值。相比于现有技术，本发明能够提高声音匹配的精度。同时，相比于常规相关性而言，仅仅计算部分信号的相关性，可以降低复杂度，提高运算速度。

Description

一种信号匹配方法及装置

技术领域

本发明涉及一种信号匹配方法，特别是一种声音精确信号匹配方法；本发明还设计一种用于实现上述方法的信号匹配装置。

背景技术

在声音信号处理中，两个相似的声音的匹配是很关键的一个技术。该技术的广泛用于雷达信号处理，延时估计，以及声学回声消除等技术领域中。

针对上述问题，公开号为US20130163698A1的美国专利，公开了一种低复杂度和鲁棒性的延时估计方法。具体的，请参阅图1，其为现有技术中的延时估计方法的原理框图。该方法包括以下步骤：

步骤1：对参考信号A和目标信号B进行预处理；

步骤2：分别进行短时傅里叶变换(STFT)；

步骤3：分别提取声音的特征谱，包括相关谱和相干谱；

步骤4：匹配获得延时。

上述方法有复杂度低，查找速度快的优点。然而，该方案受到快速傅里叶变换(FFT)的重叠长度的影响，重叠长度就限定了其精度，重叠长度越大，精度就越小，运算量越小，反之亦然。

发明内容

本发明在于克服现有技术的缺点与不足，提供一种能够精确匹配的信号匹配方法及装置。

本发明是通过以下的技术方案实现的：一种信号匹配方法，其包括以下步骤：

S1：对参考信号x(t)和目标信号y(t)分别进行预处理；

S2：对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换，分别得出频域参考信号X(f,m)和目标信号Y(f,m)，其中f＝0,1,...,N_F-1表示频率，对于X(f,m)，m＝1,2,...M_x表示帧数；对于Y(f,m)，m＝1,2,...M_y表示帧数；

S3：对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声，分别获得X_n(f,m)，Y_n(f,m)；

S4：根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理，分别获得X_b(f,m)，m＝1,2,...M_x，Y_b(f,m)，m＝1,2,...M_y；

S5：计算X_b(f,m)每个频点在Y_b(f,m)中的位置，获得k个匹配位置，分别用m₁,m₂,...,m_k表示，其中位置m₁到m_k的匹配度递减；

S6：以匹配位置m₁为中心，向两边m_c的位置取出

M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)；

S7：分别对该时域信号x_p(t)和目标信号y(t)进行分频，分别得出若干个频带；

S8：计算每个频带的相关系数；

S9：对上述每个频带的相关系数进行加权计算，获取相关系数序列，并选取其最大值。

相比于现有技术，本发明能够提高声音匹配的精度。同时，相比于常规相关性而言，仅仅计算部分信号的相关性，可以降低复杂度，提高运算速度。

作为本发明的进一步改进，所述S1中进行预处理的方式包括降噪、去混响和预加重。

作为本发明的进一步改进，所述S3中使用最小跟踪或直接估计方法进行估计本底噪声。

作为本发明的进一步改进，所述S7中将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带；

所述S8中包括步骤：

S81：取低频信号计算y_L(t)，t＝1,...,M_y和x_pL(t)，t＝1,...,M_y的相关性系数，获得ρ_L(1)；然后y_L(t)，t＝1,...,M_y，和x_pL(t)，t＝2,...,M_y+1与获得相关系数ρ_L(2)；以此类推，获得相关系数序列ρ_L(t)，t＝1,...,2m_c+1；

S82：取中频信号计算y_M(t)，t＝1,...,M_y和x_pM(t)，t＝1,...,M_y的相关性系数，获得ρ_M(1)；然后y_M(t)，t＝1,...,M_y，和x_pM(t)，t＝2,...,M_y+1与获得相关系数ρ_M(2)；以此类推，获得相关系数序列ρ_M(t)，t＝1,...,2m_c+1；

S83：取高频信号计算y_H(t)，t＝1,...,M_y和x_pH(t)，t＝1,...,M_y的相关性系数，获得ρ_H(1)；然后y_H(t)，t＝1,...,M_y，和x_pH(t)，t＝2,...,M_y+1与获得相关系数ρ_H(2)；以此类推，获得相关系数序列ρ_H(t)，t＝1,...,2m_c+1；

所述S9中使用加权系数使用加权系数α＝[α₁,α₂,α₃]，α₁,...,α₃≥0，||α||＝1，计算加权ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'，选取ρ(t)中最大值，对于的序号是m_kc,0≤m_kc≤2m_c+1。

作为本发明的进一步改进，还包括步骤S10：比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；

如果不满足ρ(k)＞λ，则在S6中依次使用匹配位置m₂至m_k继续执行步骤S7-S9。

本发明还提供了一种信号匹配装置，包括：

预处理模块，用于对参考信号x(t)和目标信号y(t)分别进行预处理；

频域变换模块，用于对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换，分别得出频域参考信号X(f,m)和目标信号Y(f,m)，其中f＝0,1,...,N_F-1表示频率，对于X(f,m)，m＝1,2,...M_x表示帧数；对于Y(f,m)，m＝1,2,...M_y表示帧数；

估计模块，用于对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声，分别获得X_n(f,m)，Y_n(f,m)；

二值化处理模块，用于根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理，分别获得X_b(f,m)，m＝1,2,...M_x，Y_b(f,m)，m＝1,2,...M_y；

匹配位置计算模块，用于计算X_b(f,m)每个频点在Y_b(f,m)中的位置，获得k个匹配位置，分别用m₁,m₂,...,m_k表示，其中位置m₁到m_k的匹配度递减；

时域还原模块，以匹配位置m₁为中心，向两边m_c的位置取出M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)；

分频模块，用于分别对该时域信号x_p(t)和目标信号y(t)进行分频，分别得出若干个频带；

相关系数计算模块，用于分别计算每个频带的相关系数；

加权计算模块，用于对上述每个频带的相关系数进行加权计算，获取相关系数序列，并选取其最大值。

作为本发明的进一步改进，所述预处理模块中的预处理的方式包括降噪、去混响和预加重。

作为本发明的进一步改进，所述估计模块中使用最小跟踪或直接估计方法进行估计本底噪声。

作为本发明的进一步改进，所述分频模块将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带；

所述相关系数计算模块，包括

低频计算子模块，用于取低频信号计算y_L(t)，t＝1,...,M_y和x_pL(t)，t＝1,...,M_y的相关性系数，获得ρ_L(1)；然后y_L(t)，t＝1,...,M_y，和x_pL(t)，t＝2,...,M_y+1与获得相关系数ρ_L(2)；以此类推，获得相关系数序列ρ_L(t)，t＝1,...,2m_c+1；

中频计算子模块，用于取中频信号计算y_M(t)，t＝1,...,M_y和x_pM(t)，t＝1,...,M_y的相关性系数，获得ρ_M(1)；然后y_M(t)，t＝1,...,M_y，和x_pM(t)，t＝2,...,M_y+1与获得相关系数ρ_M(2)；以此类推，获得相关系数序列ρ_M(t)，t＝1,...,2m_c+1；

高频计算子模块，用于取高频信号计算y_H(t)，t＝1,...,M_y和x_pH(t)，t＝1,...,M_y的相关性系数，获得ρ_H(1)；然后y_H(t)，t＝1,...,M_y，和x_pH(t)，t＝2,...,M_y+1与获得相关系数ρ_H(2)；以此类推，获得相关系数序列ρ_H(t)，t＝1,...,2m_c+1；

所述加权计算模块使用加权系数使用加权系数α＝[α₁,α₂,α₃]，α₁,...,α₃≥0，||α||＝1，计算加权ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'，选取ρ(t)中最大值，对于的序号是m_kc,0≤m_kc≤2m_c+1。

作为本发明的进一步改进，还包括比较模块，用于比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；如果不满足ρ(k)＞λ，则在时域还原模块中依次使用m₂至m_k匹配位置继续搜索相关系数。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是现有技术的延时估计方法的原理框图。

图2是本发明的信号匹配方法的步骤流程图。

图3是本实施例的实施流程图。

图4是本发明的信号匹配装置的模块连接框图。

具体实施方式

请同时参阅图2，其为本发明的信号匹配方法的步骤流程图。

本发明提供了一种信号匹配方法，其包括以下步骤：

S1：对参考信号x(t)和目标信号y(t)分别进行预处理。具体的，所述S1中进行预处理的方式包括降噪、去混响和预加重等方式。

S3：对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声，分别获得X_n(f,m)，Y_n(f,m)。具体的，在本实施例中，所述S3中可以使用最小跟踪方法进行估计本底噪声，也可以使用直接估计等其他方式进行估计。

S6：以匹配位置m₁为中心，向两边m_c的位置取出

M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)；

S7：分别对该时域信号x_p(t)和目标信号y(t)进行分频，分别得出若干个频带。具体的，在本实施例中，所述S7中将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带，也可以划分为多个频带。本实施例中定义低、中、高频与普通描述通信系统的或者声音的频带划分不同。这个划分是一个相对的划分,对于语音信号，低频表征了这个信号的包络特性，中频表征了一个幅度相对平稳的，信噪比相对大的区域。高频的信噪比小，我们给予低的权值，或者忽略。

S8：计算每个频带的相关系数。所述S8中包括步骤：

S9：对上述每个频带的相关系数进行加权计算，获取相关系数序列，并选取其最大值。所述S9中使用加权系数使用加权系数α＝[α₁,α₂,α₃]，α₁,...,α₃≥0，||α||＝1，计算加权ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'，选取ρ(t)中最大值，对于的序号是m_kc,0≤m_kc≤2m_c+1。这里的ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'表示加权系数矩阵α与矩阵[ρ_L(t),ρ_M(t),ρ_H(t)]的乘法。

S10：比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；

以下通过一个具体实例，介绍本发明的声音匹配方法。

本发明的匹配方法能用于音乐匹配，类如截取一段音乐，或者是任何两个需要做二维信号匹配的地方。

若有参考信号x(t)，目标信号y(t)。目的就是从参考信号中找到与目标信号匹配的信号其中y′(t)是y(t)的变换，定义为y′(t)＝T(y(t))。算子T(·)代表某种本算法能够处理的变换，包括线性变换，也可以是非线性的幅度和相位的变换。

请参阅图3，其为本发明的实施流程图。

详细方法：

首先对x(t)和y(t)进行必要的预处理，包括降噪、去混响等。

然后进行重叠为L，FFT点数为N_fft的STFT变换，分别对应为X(f,m)和Y(f,m)，其中f＝0,1,...,N_F-1表示频率，对于X(f,m)，m＝1,2,...M_x表示帧数。对于Y(f,m)，m＝1,2,...M_y表示帧数。因为是为了在X(f,m)中寻找Y(f,m)的变换量，因此显然M_y≥M_x。

接着估计X(f,m)和Y(f,m)的本底噪声获得X_n(f,m)，Y_n(f,m)，估计本底噪声的方法可以是最小跟踪或者其他能够估计噪声的方法的一种。

对X(f,m)和Y(f,m)进行二值化获得X_b(f,m)，m＝1,2,...M_x，Y_b(f,m)，m＝1,2,...M_y。

最后计匹配位置，计算X_b(f,m)每个频点在Y_b(f,m)中的位置。然后加权平均获得k最终位置分别用m₁,m₂,...,mm₁,m₂,...,m_kk表示。其中位置m₁到m_k的匹配度递减，m₁表示最匹配。

接着，对这个范围附近的前后N个帧数据再处理。

前面获得了匹配位置k个匹配位置m₁,m₂,...,m_k。首先以匹配位置m₁为中心，向两边m_c的位置取出M_y+2m_c+1个值做ISTFT，或者直接在原序列中提取原序列。如果需要使用FFT滤波器的话，就对M_y+2m_c+1个位置直接使用，并用ISTFT还原。如果使用时域的滤波器方法就直接提取这M_y+2m_c+1个位置的时域信号x_p(t)。

跟着，在N个帧中使用改进的相关性算法搜索位置。现在我们考虑的问题是x_p(t)与y(t)的匹配问题。因为往往y′(t)＝T(y(t))的变化都不是线性的，同时也有可能引入一些噪声。因此本发明不使用直接的相关性计算方法，而是用使用一种分频带的相关性计算法。

首先把x_p(t)和y(t)分成对于语音信号而言(对于音乐信号或者其他二维信号可以考虑其他划分组成的标准)分成三个组成：高频FH＝FH_l,...,FH_h，中频FM＝FM_l,...,FM_h，低频FL＝FL_l,...,FL_h。注意该定义与普通描述通信系统的或者声音的频带划分不同。这个划分是一个相对的划分,对于语音信号，低频表征了这个信号的包络特性，中频表征了一个幅度相对平稳的，信噪比相对大的区域。高频的信噪比小，我们给予低的权值，或者忽略。

对三个频带的数据分别使用以下的算法计算相关性。x_p(t)和y(t)经过同样的方法进行分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带。

第一步，取低频信号计算y_L(t)，t＝1,...,M_y和x_pL(t)，t＝1,...,M_y的相关性系数，获得ρ_L(1)；然后y_L(t)，t＝1,...,M_y，和x_pL(t)，t＝2,...,M_y+1与获得相关系数ρ_L(2)；以此类推，可以获得相关系数序列ρ_L(t)，t＝1,...,2m_c+1。

第二步，对x_pM(t)，y_H(t)和x_pM(t)y_H(t)使用第一步的方法，获得ρ_M(t)和ρ_H(t)。

第三步，使用加权系数α＝[α₁,α₂,α₃]，α₁,...,α₃≥0，||α||＝1，计算加权ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'。这里的ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'表示加权系数矩阵α与矩阵[ρ_L(t),ρ_M(t),ρ_H(t)]的乘法。注意，分频限制，此处也可以是N个频带。加权系数根据语音情况设定，如果需要减小低信噪比的的频带的影响，则对该频带使用较小的系数或者为设置系数为0。

第四步，选取ρ(t)中最大值，对于的序号是m_kc,0≤m_kc≤2m_c+1。

第五步，如果ρ(k)＞λ则表示接受该位置。假设获得的位置为m₁，获得的实际匹配位置就是m₁+m_kc。如果不满足ρ(k)＞λ，那么使用m₂位置搜索继续。

请参阅图4，其为本发明的信号匹配装置的模块连接框图。

本发明还提供了一种用于实现上述信号匹配方法的信号匹配装置，其包括：预处理模块1、频域变换模块2、估计模块3、二值化处理模块4、匹配位置计算模块5、时域还原模块6、分频模块7、相关系数计算模块8、加权计算模块9和比较模块10。

所述预处理模块1，用于对参考信号x(t)和目标信号y(t)分别进行预处理。具体的，所述预处理模块中的预处理的方式包括降噪、去混响和预加重等。

所述频域变换模块2，用于对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换，分别得出频域参考信号X(f,m)和目标信号Y(f,m)，其中f＝0,1,...,N_F-1表示频率，对于X(f,m)，m＝1,2,...M_x表示帧数；对于Y(f,m)，m＝1,2,...M_y表示帧数；

所述估计模块3，用于对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声，分别获得X_n(f,m)，Y_n(f,m)。具体的，所述估计模块中使用最小跟踪方法进行估计本底噪声，也可以使用如直接估计等其他估计方法。

所述二值化处理模块4，用于根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理，分别获得X_b(f,m)，m＝1,2,...M_x，Y_b(f,m)，m＝1,2,...M_y；

所述匹配位置计算模块5，用于计算X_b(f,m)每个频点在Y_b(f,m)中的位置，获得k个匹配位置，分别用m₁,m₂,...,m_k表示，其中位置m₁到m_k的匹配度递减；

所述时域还原模块6，以匹配位置m₁为中心，向两边m_c的位置取出M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)。

所述分频模块7，用于分别对该时域信号x_p(t)和目标信号y(t)进行分频，分别得出若干个频带。具体的，在本实施例中，所述分频模块将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带。

所述相关系数计算模块8，用于分别计算每个频带的相关系数。具体的，所述相关系数计算模块，包括低频计算子模块81、中频计算子模块82和高频计算子模块83。

所述低频计算子模块81，用于取低频信号计算y_L(t)，t＝1,...,M_y和x_pL(t)，t＝1,...,M_y的相关性系数，获得ρ_L(1)；然后y_L(t)，t＝1,...,M_y，和x_pL(t)，t＝2,...,M_y+1与获得相关系数ρ_L(2)；以此类推，获得相关系数序列ρ_L(t)，t＝1,...,2m_c+1；

所述中频计算子模块82，用于取中频信号计算y_M(t)，t＝1,...,M_y和x_pM(t)，t＝1,...,M_y的相关性系数，获得ρ_M(1)；然后y_M(t)，t＝1,...,M_y，和x_pM(t)，t＝2,...,M_y+1与获得相关系数ρ_M(2)；以此类推，获得相关系数序列ρ_M(t)，t＝1,...,2m_c+1；

所述高频计算子模块83，用于取高频信号计算y_H(t)，t＝1,...,M_y和x_pH(t)，t＝1,...,M_y的相关性系数，获得ρ_H(1)；然后y_H(t)，t＝1,...,M_y，和x_pH(t)，t＝2,...,M_y+1与获得相关系数ρ_H(2)；以此类推，获得相关系数序列ρ_H(t)，t＝1,...,2m_c+1；

所述加权计算模块9，用于对上述每个频带的相关系数进行加权计算，获取相关系数序列，并选取其最大值。所述加权计算模块使用加权系数使用加权系数α＝[α₁,α₂,α₃]，α₁,...,α₃≥0，||α||＝1，计算加权ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'，选取ρ(t)中最大值，对于的序号是m_kc,0≤m_kc≤2m_c+1。这里的ρ(t)＝α[ρ_L(t),ρ_M(t),ρ_H(t)]'表示加权系数矩阵α与矩阵[ρ_L(t),ρ_M(t),ρ_H(t)]的乘法。

所述比较模块10，用于比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；如果不满足ρ(k)＞λ，则在时域还原模块中依次使用m₂至m_k匹配位置继续搜索相关系数。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种信号匹配方法，其包括以下步骤：

S1：对参考信号x(t)和目标信号y(t)分别进行预处理；

S6：以匹配位置m₁为中心，向两边m_c的位置取出

M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)；

S8：计算每个频带的相关系数；

2.根据权利要求1所述信号匹配方法，其特征在于：所述S1中进行预处理的方式包括降噪、去混响和预加重。

3.根据权利要求1所述信号匹配方法，其特征在于：所述S3中使用最小跟踪或者直接估计方法进行估计本底噪声。

4.根据权利要求1所述信号匹配方法，其特征在于：所述S7中将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带；

所述S8中包括步骤：

5.根据权利要求4所述信号匹配方法，其特征在于：还包括步骤S10：比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；

6.一种信号匹配装置，其特征在于，包括：

时域还原模块，以匹配位置m₁为中心，向两边m_c的位置取出

M_y+2m_c+1个值，并分别还原出相应的时域信号x_p(t)；

相关系数计算模块，用于分别计算每个频带的相关系数；

7.根据权利要求6所述信号匹配装置，其特征在于：所述预处理模块中的预处理的方式包括降噪、去混响和预加重。

8.根据权利要求6所述信号匹配装置，其特征在于：所述估计模块中使用最小跟踪或者直接估计方法进行估计本底噪声。

9.根据权利要求6所述信号匹配装置，其特征在于：所述分频模块将x_p(t)和y(t)分别分频变为x_pL(t)，x_pM(t)，x_pH(t)和y_L(t)，y_M(t)，y_H(t)三个频带；

所述相关系数计算模块，包括

10.根据权利要求6所述信号匹配装置，其特征在于：还包括比较模块，用于比较最大值ρ(k)和一设定阈值λ的大小；若最大值ρ(k)＞λ则表示接受该位置，则获得的实际匹配位置为m₁+m_kc；如果不满足ρ(k)＞λ，则在时域还原模块中依次使用m₂至m_k匹配位置继续搜索相关系数。