CN106057211B - 一种信号匹配方法及装置 - Google Patents

一种信号匹配方法及装置 Download PDF

Info

Publication number
CN106057211B
CN106057211B CN201610373420.3A CN201610373420A CN106057211B CN 106057211 B CN106057211 B CN 106057211B CN 201610373420 A CN201610373420 A CN 201610373420A CN 106057211 B CN106057211 B CN 106057211B
Authority
CN
China
Prior art keywords
signal
frequency
obtains
related coefficient
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610373420.3A
Other languages
English (en)
Other versions
CN106057211A (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Duoyi Network Co Ltd
Original Assignee
Guangzhou Duoyi Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Duoyi Network Co Ltd filed Critical Guangzhou Duoyi Network Co Ltd
Priority to CN201610373420.3A priority Critical patent/CN106057211B/zh
Publication of CN106057211A publication Critical patent/CN106057211A/zh
Application granted granted Critical
Publication of CN106057211B publication Critical patent/CN106057211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种信号匹配方法,其包括以下步骤:S1:对参考信号x(t)和目标信号y(t)分别进行预处理;S2:对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m);S3:进行估计本底噪声;S4:进行二值化处理;S5:获得匹配位置;S6:原出相应的时域信号xp(t);S7:分别对该时域信号xp(t)和目标信号y(t)进行分频,分别得出若干个频带;S8:计算每个频带的相关系数;S9:对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值。相比于现有技术,本发明能够提高声音匹配的精度。同时,相比于常规相关性而言,仅仅计算部分信号的相关性,可以降低复杂度,提高运算速度。

Description

一种信号匹配方法及装置
技术领域
本发明涉及一种信号匹配方法,特别是一种声音精确信号匹配方法;本发明还设计一种用于实现上述方法的信号匹配装置。
背景技术
在声音信号处理中,两个相似的声音的匹配是很关键的一个技术。该技术的广泛用于雷达信号处理,延时估计,以及声学回声消除等技术领域中。
针对上述问题,公开号为US20130163698A1的美国专利,公开了一种低复杂度和鲁棒性的延时估计方法。具体的,请参阅图1,其为现有技术中的延时估计方法的原理框图。该方法包括以下步骤:
步骤1:对参考信号A和目标信号B进行预处理;
步骤2:分别进行短时傅里叶变换(STFT);
步骤3:分别提取声音的特征谱,包括相关谱和相干谱;
步骤4:匹配获得延时。
上述方法有复杂度低,查找速度快的优点。然而,该方案受到快速傅里叶变换(FFT)的重叠长度的影响,重叠长度就限定了其精度,重叠长度越大,精度就越小,运算量越小,反之亦然。
发明内容
本发明在于克服现有技术的缺点与不足,提供一种能够精确匹配的信号匹配方法及装置。
本发明是通过以下的技术方案实现的:一种信号匹配方法,其包括以下步骤:
S1:对参考信号x(t)和目标信号y(t)分别进行预处理;
S2:对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
S3:对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m);
S4:根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
S5:计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
S6:以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t);
S7:分别对该时域信号xp(t)和目标信号y(t)进行分频,分别得出若干个频带;
S8:计算每个频带的相关系数;
S9:对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值。
相比于现有技术,本发明能够提高声音匹配的精度。同时,相比于常规相关性而言,仅仅计算部分信号的相关性,可以降低复杂度,提高运算速度。
作为本发明的进一步改进,所述S1中进行预处理的方式包括降噪、去混响和预加重。
作为本发明的进一步改进,所述S3中使用最小跟踪或直接估计方法进行估计本底噪声。
作为本发明的进一步改进,所述S7中将xp(t)和y(t)分别分频变为xpL(t),xpM(t),xpH(t)和yL(t),yM(t),yH(t)三个频带;
所述S8中包括步骤:
S81:取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,...,2mc+1;
S82:取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,...,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
S83:取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
所述S9中使用加权系数使用加权系数α=[α123],α1,...,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1。
作为本发明的进一步改进,还包括步骤S10:比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc
如果不满足ρ(k)>λ,则在S6中依次使用匹配位置m2至mk继续执行步骤S7-S9。
本发明还提供了一种信号匹配装置,包括:
预处理模块,用于对参考信号x(t)和目标信号y(t)分别进行预处理;
频域变换模块,用于对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
估计模块,用于对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m);
二值化处理模块,用于根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
匹配位置计算模块,用于计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
时域还原模块,以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t);
分频模块,用于分别对该时域信号xp(t)和目标信号y(t)进行分频,分别得出若干个频带;
相关系数计算模块,用于分别计算每个频带的相关系数;
加权计算模块,用于对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值。
作为本发明的进一步改进,所述预处理模块中的预处理的方式包括降噪、去混响和预加重。
作为本发明的进一步改进,所述估计模块中使用最小跟踪或直接估计方法进行估计本底噪声。
作为本发明的进一步改进,所述分频模块将xp(t)和y(t)分别分频变为xpL(t),xpM(t),xpH(t)和yL(t),yM(t),yH(t)三个频带;
所述相关系数计算模块,包括
低频计算子模块,用于取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,...,2mc+1;
中频计算子模块,用于取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,...,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
高频计算子模块,用于取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
所述加权计算模块使用加权系数使用加权系数α=[α123],α1,...,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1。
作为本发明的进一步改进,还包括比较模块,用于比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc;如果不满足ρ(k)>λ,则在时域还原模块中依次使用m2至mk匹配位置继续搜索相关系数。
相比于现有技术,本发明能够提高声音匹配的精度。同时,相比于常规相关性而言,仅仅计算部分信号的相关性,可以降低复杂度,提高运算速度。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是现有技术的延时估计方法的原理框图。
图2是本发明的信号匹配方法的步骤流程图。
图3是本实施例的实施流程图。
图4是本发明的信号匹配装置的模块连接框图。
具体实施方式
请同时参阅图2,其为本发明的信号匹配方法的步骤流程图。
本发明提供了一种信号匹配方法,其包括以下步骤:
S1:对参考信号x(t)和目标信号y(t)分别进行预处理。具体的,所述S1中进行预处理的方式包括降噪、去混响和预加重等方式。
S2:对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
S3:对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m)。具体的,在本实施例中,所述S3中可以使用最小跟踪方法进行估计本底噪声,也可以使用直接估计等其他方式进行估计。
S4:根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
S5:计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
S6:以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t);
S7:分别对该时域信号xp(t)和目标信号y(t)进行分频,分别得出若干个频带。具体的,在本实施例中,所述S7中将xp(t)和y(t)分别分频变为xpL(t),xpM(t),xpH(t)和yL(t),yM(t),yH(t)三个频带,也可以划分为多个频带。本实施例中定义低、中、高频与普通描述通信系统的或者声音的频带划分不同。这个划分是一个相对的划分,对于语音信号,低频表征了这个信号的包络特性,中频表征了一个幅度相对平稳的,信噪比相对大的区域。高频的信噪比小,我们给予低的权值,或者忽略。
S8:计算每个频带的相关系数。所述S8中包括步骤:
S81:取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,...,2mc+1;
S82:取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,...,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
S83:取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
S9:对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值。所述S9中使用加权系数使用加权系数α=[α123],α1,…,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1。这里的ρ(t)=α[ρL(t),ρM(t),ρH(t)]'表示加权系数矩阵α与矩阵[ρL(t),ρM(t),ρH(t)]的乘法。
S10:比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc
如果不满足ρ(k)>λ,则在S6中依次使用匹配位置m2至mk继续执行步骤S7-S9。
以下通过一个具体实例,介绍本发明的声音匹配方法。
本发明的匹配方法能用于音乐匹配,类如截取一段音乐,或者是任何两个需要做二维信号匹配的地方。
若有参考信号x(t),目标信号y(t)。目的就是从参考信号中找到与目标信号匹配的信号其中y′(t)是y(t)的变换,定义为y′(t)=T(y(t))。算子T(·)代表某种本算法能够处理的变换,包括线性变换,也可以是非线性的幅度和相位的变换。
请参阅图3,其为本发明的实施流程图。
详细方法:
首先对x(t)和y(t)进行必要的预处理,包括降噪、去混响等。
然后进行重叠为L,FFT点数为Nfft的STFT变换,分别对应为X(f,m)和Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数。对于Y(f,m),m=1,2,...My表示帧数。因为是为了在X(f,m)中寻找Y(f,m)的变换量,因此显然My≥Mx
接着估计X(f,m)和Y(f,m)的本底噪声获得Xn(f,m),Yn(f,m),估计本底噪声的方法可以是最小跟踪或者其他能够估计噪声的方法的一种。
对X(f,m)和Y(f,m)进行二值化获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
最后计匹配位置,计算Xb(f,m)每个频点在Yb(f,m)中的位置。然后加权平均获得k最终位置分别用m1,m2,...,mk表示。其中位置m1到mk的匹配度递减,m1表示最匹配。
接着,对这个范围附近的前后N个帧数据再处理。
前面获得了匹配位置k个匹配位置m1,m2,...,mk。首先以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值做ISTFT,或者直接在原序列中提取原序列。如果需要使用FFT滤波器的话,就对My+2mc+1个位置直接使用,并用ISTFT还原。如果使用时域的滤波器方法就直接提取这My+2mc+1个位置的时域信号xp(t)。
跟着,在N个帧中使用改进的相关性算法搜索位置。现在我们考虑的问题是xp(t)与y(t)的匹配问题。因为往往y′(t)=T(y(t))的变化都不是线性的,同时也有可能引入一些噪声。因此本发明不使用直接的相关性计算方法,而是用使用一种分频带的相关性计算法。
首先把xp(t)和y(t)分成对于语音信号而言(对于音乐信号或者其他二维信号可以考虑其他划分组成的标准)分成三个组成:高频FH=FHl,...,FHh,中频FM=FMl,...,FMh,低频FL=FLl,...,FLh。注意该定义与普通描述通信系统的或者声音的频带划分不同。这个划分是一个相对的划分,对于语音信号,低频表征了这个信号的包络特性,中频表征了一个幅度相对平稳的,信噪比相对大的区域。高频的信噪比小,我们给予低的权值,或者忽略。
对三个频带的数据分别使用以下的算法计算相关性。xp(t)和y(t)经过同样的方法进行分频变为xpL(t),xpM(t),xpH(t)和yL(t),yM(t),yH(t)三个频带。
第一步,取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,可以获得相关系数序列ρL(t),t=1,...,2mc+1。
第二步,对xpM(t),yM(t)和xpH(t),yH(t)使用第一步的方法,获得ρM(t)和ρH(t)。
第三步,使用加权系数α=[α123],α1,...,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]'。这里的ρ(t)=α[ρL(t),ρM(t),ρH(t)]'表示加权系数矩阵α与矩阵[ρL(t),ρM(t),ρH(t)]的乘法。注意,分频限制,此处也可以是N个频带。加权系数根据语音情况设定,如果需要减小低信噪比的的频带的影响,则对该频带使用较小的系数或者为设置系数为0。
第四步,选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1。
第五步,如果ρ(k)>λ则表示接受该位置。假设获得的位置为m1,获得的实际匹配位置就是m1+mkc。如果不满足ρ(k)>λ,那么使用m2位置搜索继续。
相比于现有技术,本发明能够提高声音匹配的精度。同时,相比于常规相关性而言,仅仅计算部分信号的相关性,可以降低复杂度,提高运算速度。
请参阅图4,其为本发明的信号匹配装置的模块连接框图。
本发明还提供了一种用于实现上述信号匹配方法的信号匹配装置,其包括:预处理模块1、频域变换模块2、估计模块3、二值化处理模块4、匹配位置计算模块5、时域还原模块6、分频模块7、相关系数计算模块8、加权计算模块9和比较模块10。
所述预处理模块1,用于对参考信号x(t)和目标信号y(t)分别进行预处理。具体的,所述预处理模块中的预处理的方式包括降噪、去混响和预加重等。
所述频域变换模块2,用于对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
所述估计模块3,用于对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m)。具体的,所述估计模块中使用最小跟踪方法进行估计本底噪声,也可以使用如直接估计等其他估计方法。
所述二值化处理模块4,用于根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
所述匹配位置计算模块5,用于计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
所述时域还原模块6,以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t)。
所述分频模块7,用于分别对该时域信号xp(t)和目标信号y(t)进行分频,分别得出若干个频带。具体的,在本实施例中,所述分频模块将xp(t)和y(t)分别分频变为xpL(t),xpM(t),xpH(t)和yL(t),yM(t),yH(t)三个频带。
所述相关系数计算模块8,用于分别计算每个频带的相关系数。具体的,所述相关系数计算模块,包括低频计算子模块81、中频计算子模块82和高频计算子模块83。
所述低频计算子模块81,用于取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,...,2mc+1;
所述中频计算子模块82,用于取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,...,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
所述高频计算子模块83,用于取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
所述加权计算模块9,用于对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值。所述加权计算模块使用加权系数使用加权系数α=[α123],α1,...,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1。这里的ρ(t)=α[ρL(t),ρM(t),ρH(t)]'表示加权系数矩阵α与矩阵[ρL(t),ρM(t),ρH(t)]的乘法。
所述比较模块10,用于比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc;如果不满足ρ(k)>λ,则在时域还原模块中依次使用m2至mk匹配位置继续搜索相关系数。
相比于现有技术,本发明能够提高声音匹配的精度。同时,相比于常规相关性而言,仅仅计算部分信号的相关性,可以降低复杂度,提高运算速度。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (6)

1.一种信号匹配方法,其包括以下步骤:
S1:对参考信号x(t)和目标信号y(t)分别进行预处理;
S2:对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
S3:对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m);
S4:根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
S5:计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
S6:以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t);
S7:分别对该时域信号xp(t)和目标信号y(t)进行分频,得到xp(t)的三个频带xpL(t)、xpM(t)和xpH(t),并得到y(t)的三个频带yL(t)、yM(t)和yH(t);
S8:计算每个频带的相关系数,包括步骤:
S81:取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,...,2mc+1;
S82:取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,...,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
S83:取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
S9:对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值,使用加权系数α=[α123],α1,...,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1;
S10:比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc;如果不满足ρ(k)>λ,则在S6中依次使用匹配位置m2至mk继续执行步骤S7-S9。
2.根据权利要求1所述信号匹配方法,其特征在于:所述S1中进行预处理的方式包括降噪、去混响和预加重。
3.根据权利要求1所述信号匹配方法,其特征在于:所述S3中使用最小跟踪或者直接估计方法进行估计本底噪声。
4.一种信号匹配装置,其特征在于,包括:
预处理模块,用于对参考信号x(t)和目标信号y(t)分别进行预处理;
频域变换模块,用于对参考信号x(t)和目标信号y(t)分别进行短时傅里叶变换,分别得出频域参考信号X(f,m)和目标信号Y(f,m),其中f=0,1,...,NF-1表示频率,对于X(f,m),m=1,2,...Mx表示帧数;对于Y(f,m),m=1,2,...My表示帧数;
估计模块,用于对参考信号X(f,m)和目标信号Y(f,m)分别进行估计本底噪声,分别获得Xn(f,m),Yn(f,m);
二值化处理模块,用于根据本底噪声分别对参考信号X(f,m)和目标信号Y(f,m)进行二值化处理,分别获得Xb(f,m),m=1,2,...Mx,Yb(f,m),m=1,2,...My
匹配位置计算模块,用于计算Xb(f,m)每个频点在Yb(f,m)中的位置,获得k个匹配位置,分别用m1,m2,...,mk表示,其中位置m1到mk的匹配度递减;
时域还原模块,以匹配位置m1为中心,向两边mc的位置取出My+2mc+1个值,并分别还原出相应的时域信号xp(t);
分频模块,用于分别对该时域信号xp(t)和目标信号y(t)进行分频,得到xp(t)的三个频带xpL(t)、xpM(t)和xpH(t),并得到y(t)的三个频带yL(t)、yM(t)和yH(t);
相关系数计算模块,用于分别计算每个频带的相关系数;且所述相关系数计算模块包括低频计算子模块、中频计算子模块和高频计算子模块:
所述低频计算子模块,用于取低频信号计算yL(t),t=1,...,My和xpL(t),t=1,...,My的相关性系数,获得ρL(1);然后yL(t),t=1,...,My,和xpL(t),t=2,...,My+1与获得相关系数ρL(2);以此类推,获得相关系数序列ρL(t),t=1,…,2mc+1;
所述中频计算子模块,用于取中频信号计算yM(t),t=1,...,My和xpM(t),t=1,…,My的相关性系数,获得ρM(1);然后yM(t),t=1,...,My,和xpM(t),t=2,...,My+1与获得相关系数ρM(2);以此类推,获得相关系数序列ρM(t),t=1,...,2mc+1;
所述高频计算子模块,用于取高频信号计算yH(t),t=1,...,My和xpH(t),t=1,...,My的相关性系数,获得ρH(1);然后yH(t),t=1,...,My,和xpH(t),t=2,...,My+1与获得相关系数ρH(2);以此类推,获得相关系数序列ρH(t),t=1,...,2mc+1;
加权计算模块,用于对上述每个频带的相关系数进行加权计算,获取相关系数序列,并选取其最大值;所述加权计算模块使用加权系数α=[α123],α1,…,α3≥0,||α||=1,计算加权ρ(t)=α[ρL(t),ρM(t),ρH(t)]',选取ρ(t)中最大值,对于的序号是mkc,0≤mkc≤2mc+1;
比较模块,用于比较最大值ρ(k)和一设定阈值λ的大小;若最大值ρ(k)>λ则表示接受该位置,则获得的实际匹配位置为m1+mkc;如果不满足ρ(k)>λ,则在时域还原模块中依次使用m2至mk匹配位置继续搜索相关系数。
5.根据权利要求4所述信号匹配装置,其特征在于:所述预处理模块中的预处理的方式包括降噪、去混响和预加重。
6.根据权利要求4所述信号匹配装置,其特征在于:所述估计模块中使用最小跟踪或者直接估计方法进行估计本底噪声。
CN201610373420.3A 2016-05-27 2016-05-27 一种信号匹配方法及装置 Active CN106057211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610373420.3A CN106057211B (zh) 2016-05-27 2016-05-27 一种信号匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610373420.3A CN106057211B (zh) 2016-05-27 2016-05-27 一种信号匹配方法及装置

Publications (2)

Publication Number Publication Date
CN106057211A CN106057211A (zh) 2016-10-26
CN106057211B true CN106057211B (zh) 2018-08-21

Family

ID=57171560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610373420.3A Active CN106057211B (zh) 2016-05-27 2016-05-27 一种信号匹配方法及装置

Country Status (1)

Country Link
CN (1) CN106057211B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696579A (zh) * 2019-03-06 2019-04-30 徐州凯思特机电科技有限公司 一种用于隔爆型充电机的电压检测电路及其检测方法
CN110085259B (zh) * 2019-05-07 2021-09-17 国家广播电视总局中央广播电视发射二台 音频比对方法、装置和设备
CN110853648B (zh) * 2019-10-30 2022-05-03 广州多益网络股份有限公司 一种不良语音检测方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040172234A1 (en) * 2003-02-28 2004-09-02 Dapp Michael C. Hardware accelerator personality compiler
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8718275B2 (en) * 2011-12-22 2014-05-06 Google Inc. Low complex and robust delay estimation
JP2013242498A (ja) * 2012-05-23 2013-12-05 Sharp Corp 音声信号変換装置、方法、プログラム、及び記録媒体
US9397629B2 (en) * 2013-10-22 2016-07-19 Bongiovi Acoustics Llc System and method for digital signal processing
CN103730129A (zh) * 2013-11-18 2014-04-16 长江大学 一种用于数据库信息查询的语音查询系统
CN104700842B (zh) * 2015-02-13 2018-05-08 广州市百果园信息技术有限公司 声音信号的时延估计方法和装置
CN104900238B (zh) * 2015-05-14 2018-08-21 电子科技大学 一种基于感知滤波的音频实时比对方法

Also Published As

Publication number Publication date
CN106057211A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
US9420368B2 (en) Time-frequency directional processing of audio signals
CN106057211B (zh) 一种信号匹配方法及装置
CN109643554A (zh) 自适应语音增强方法和电子设备
CN110164465B (zh) 一种基于深层循环神经网络的语音增强方法及装置
CN106772227A (zh) 一种基于声纹多谐波识别的无人机方向估计方法
CN103926599A (zh) 基于emd迭代阈值滤波的gnss多径效应抑制方法
CN104408288A (zh) 基于小波和参数补偿的多稳态随机共振微弱信号检测方法
Grado et al. The sliding windowed infinite Fourier transform [tips & tricks]
Pan et al. Deep learning-based 2-D frequency estimation of multiple sinusoidals
US20150312663A1 (en) Source separation using a circular model
WO2019037426A1 (zh) Mfcc语音识别方法、存储介质、电子设备及系统
US9026436B2 (en) Speech enhancement method using a cumulative histogram of sound signal intensities of a plurality of frames of a microphone array
Asghari et al. Doa estimation of noncircular signals under impulsive noise using a novel empirical characteristic function-based music
US11482239B2 (en) Joint source localization and separation method for acoustic sources
CN107644004B (zh) 一种基于离散分数阶傅里叶变换快速计算方法的数字信号处理方法及装置
Guo et al. DOA estimation of mixed circular and non-circular signals using uniform circular array
Gantayat et al. An efficient direction‐of‐arrival estimation of multipath signals with impulsive noise using satin bowerbird optimization‐based deep learning neural network
Wu et al. Microphone array speech separation algorithm based on dnn
CN110426711B (zh) 一种基于极性零点检测的时延估计方法及系统
KR101991844B1 (ko) 지연 시간 추정 장치 및 방법
Ding et al. Weighted Inverse Short-Time Fourier Transform and Denoising Filters in the Time-Frequency Plane
Duan et al. Noisy blind signal-jamming separation algorithm based on VBICA
CN114722345B (zh) 基于去斜处理和延时相关的线性调频信号调频斜率估计方法
CN117935838B (zh) 音频获取方法、装置、电子设备及存储介质
Lan et al. Detecting weak signals using a fractional Fourier transform-based stochastic matched filter for active sonars

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant