CN105989837A - 音频匹配方法及装置 - Google Patents
音频匹配方法及装置 Download PDFInfo
- Publication number
- CN105989837A CN105989837A CN201510063616.8A CN201510063616A CN105989837A CN 105989837 A CN105989837 A CN 105989837A CN 201510063616 A CN201510063616 A CN 201510063616A CN 105989837 A CN105989837 A CN 105989837A
- Authority
- CN
- China
- Prior art keywords
- matrix
- audio frequency
- masterplate
- tested
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种音频匹配方法及装置,其方法包括:分别计算被测音频与模版音频的二维Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对POC相似度矩阵按列进行平均得到一个一维的相似度值向量,选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。本发明的音频匹配方法及装置,基于Teager能量谱与POC进行音频匹配,Teager能量谱特征能够更好的反映语音在高频部分的特性,能够提升音频匹配算法定位的精度,利用POC对噪声引起的幅度谱变化不敏感的特点,提升了匹配算法的鲁棒性,并易于实现并行处理,运算速度快。
Description
技术领域
本发明涉及音频匹配技术领域,尤其涉及一种音频匹配方法及装置。
背景技术
在进行语音通信质量测评时,通常需要先使用模式匹配技术将原始语音与在远端采集到的该语音质量降级后的版本在时间上进行对齐。这类方法通常被称为语音匹配算法(Speech Matching Algorithm),或音频对齐算法(Audio Alignment Algorithm)。经历编码、传输、解码后的语音波形已经发生了明显变化,因此,一般需要选择基于对上述操作具有良好不变性的语音特征以及一定相似性度量进行匹配。现有音频匹配算法大致可以分为两类:一类是严格匹配,另一类是基于动态规划的匹配。严格匹配是通过计算两段语音严格同步计算其相关性,而动态规划类的匹配算法允许两段语音间的不同步,例如,其会认为I have a pen与I have pen是非常相似的。
例如,现有技术中的对给定音频片段的匹配方法,主要采用基于顺序扫描的匹配策略,即在待检测音频片段B中,从音频的起始时间开始,每隔极短的一段时间偏移(一段为10或几十毫秒)设一个比较点。在相似性度量方法方面,当前方法主要是将音频片段分为帧(每帧为10或几十毫秒的小片段),对每帧提取音频中的频谱、对数倒谱、短时能量、过零率等特征,形成特征向量,并采用欧式距离、马氏距离、余弦夹角距离等计算各帧间的相似性,再采用动态时间规整(DTW:Dynamic Time Warping)方法由各帧之间的相似性计算出两个片段间的相似性。但是,在现有的音频匹配方法中,需要提取频谱等复杂特征,且使用DTW算法时时间复杂度较高,傅立叶幅度谱匹配容易受噪声影响且定位精度不高,时间效率也较低。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种音频匹配方法,能够基于Teager能量谱与POC(Phase Only Correlation,纯相位相关性)进行音频匹配。
一种音频匹配方法,包括:分别计算被测音频与模版音频的短时Teager能量谱图;对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
根据本发明的一个实施例,进一步的,分别计算被测音频与模版音频的短时Teager能量谱图包括:对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,被测语音与模版语音的的帧长皆为2L,帧间重叠部分长度为L;对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱,并对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图经为矩阵Y'。
根据本发明的一个实施例,进一步的,所述对每一帧语音数据使用FFT算法计算其傅立叶能量谱包括:基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始语音信号,w[i]为一窗函数信号,x'[i]为加窗后信号;基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。
根据本发明的一个实施例,进一步的,所述对每一帧的傅立叶能量谱计算其Teager能量谱包括:基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱;其中,T[k]为归一化频率k处的Teager能量值。
根据本发明的一个实施例,进一步的,所述对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度包括:对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1);对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补0至与X'大小相同,得到矩阵对矩阵按行做FFT变换,得到其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位;基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]}获得模版语音与被测语音的POC相关性;其中“·”表示两个矩阵中相同位置元素两两相乘,函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,函数real(·)表示对矩阵的每一个元素取其实部部分,R为大小为2LxN的实数矩阵。
根据本发明的一个实施例,进一步的,对所述POC相似度按列进行平均得到一个一维的相似度值向量、选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果包括:对矩阵R按列求均值,得到一维向量r[n],n=1…N;其中R(m,n)表示矩阵R的一个元素;在r[n],n=1…N中找到一最大值rmax,记其位置为i,将i换算到被测语音中的实际样本点位置为(i-1)*L+1。
本发明要解决的一个技术问题是提供一种音频匹配装置,能够基于Teager能量谱与POC进行音频匹配。
一种音频匹配装置,包括:Teager能量谱图计算单元,用于分别计算被测音频与模版音频的二维Teager能量谱图;POC相似度计算单元,用于对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;匹配结果获取单元,用于对所述POC相似度矩阵按列进行平均得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
根据本发明的一个实施例,进一步的,所述Teager能量谱图计算单元,包括:分帧子模块,用于对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,其中,被测语音与模版语音皆采用帧长为2L,帧间重叠部分长度为L的分帧方式;傅立叶计算子模块,用于对每一帧语音数据使用FFT算法计算其傅立叶能量谱,Teager能量谱计算子模块,用于对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图为矩阵Y'。
根据本发明的一个实施例,进一步的,所述傅立叶计算子模块,还用于基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号;基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。
根据本发明的一个实施例,进一步的,所述能量谱计算子模块,还用于基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱;其中,T[k]为归一化频率k处的Teager能量值。
根据本发明的一个实施例,进一步的,所述POC相似度计算单元,还用于对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1);对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补0至与X'大小相同,得到矩阵按行做FFT变换,得到其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位;基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]}获得模版语音与被测语音的POC相关性;其中“·”表示两个矩阵中相同位置元素两两相乘,函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,函数real(·)表示对矩阵的每一个元素取其实部部分,R为大小为2LxN的实数矩阵。
根据本发明的一个实施例,进一步的,所述匹配结果获取单元,用于对矩阵R按列求均值,得到一维向量r[n],n=1…N;其中R(m,n)表示矩阵R的一个元素;在r[n],n=1…N中找到一最大值rmax,记其位置为i,将i换算到被测语音中的实际样本点位置为(i-1)*L+1。
本发明的音频匹配方法及装置,基于Teager能量谱与POC进行音频匹配,Teager能量谱特征能够更好的反映语音在高频部分的特性,能够提升音频匹配算法定位的精度,利用POC对噪声引起的幅度谱变化不敏感的特点,提升了匹配算法的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明的音频匹配方法的一个实施例的流程图;
图2为根据本发明的音频匹配方法的另一个实施例的流程图;
图3为一段被测语音的波形图及其Teager能量谱图;
图4为进行语音匹配得到的结果,图中尖峰对应的位置即为降级语音中对应模版语音的位置;
图5为根据本发明的音频匹配方法的一个实施例的模块结构示意图;
图6为根据本发明的Teager能量谱图计算单元的一个实施例的模块结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。
图1为根据本发明的音频匹配方法的一个实施例的流程图,如图1所示:
步骤101,分别计算被测音频与模版音频的二维Teager能量谱图。为简洁起见,本发明中的从语音帧得到的短时傅立叶谱与短时Teager能量谱均为简称为傅立叶谱以及Teager能量谱。
步骤102,对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵。
步骤103,对POC相似度矩阵按列进行平均得到一个一维的相似度值向量,选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
上述实施例中的音频匹配方法,基于POC与Teager能量进行语音匹配,首先分别计算两段语音的短时Teager能量谱图,然后对上述两个二维的谱图逐行采用FFT算法计算语音特征间的POC相似度,对得到的相似度值按列进行平均得到一个一维的相似度值,以其中的极大值点的位置作为匹配的结果。
图2为根据本发明的音频匹配方法的另一个实施例的流程图,如图2所示:假设降级后的被测语音长度为N,模版语音长度为M。
步骤201,对质量降级后的被测语音信号进行重叠分帧,设帧长为2L,则帧间重叠部分长度为L。对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱。分帧长度L决定了算法定位的粒度,需要根据实际情况选取。
步骤202,对每一帧的傅立叶能量谱计算其Teager能量谱,并以其作为矩阵X'的一列,矩阵X'的大小为其中表示向下取整。
步骤204、205,以模版语音为操作对象重复与步骤201和202相同的运算过程,得到Teager短时能量谱图Y',矩阵Y'的大小为其中表示向下取整。
步骤206,对Y'进行时间反转,既令Y'的第i列变为其第列。然后右侧补0,令其与矩阵X'大小相同,记为
步骤203,对矩阵X'按行做FFT变换,其结果可以记为:
FFT(X')=A1·exp(jΦ1) (0.1)
其中,函数FFT(·)表示对一个矩阵按行做傅立叶变换,其结果是一个与X'同样大小的复数矩阵。由于一个复数都可以采用幅度与相位来表示,因此FFT(X')的结果可以表示为矩阵A1与矩阵exp(jΦ1)逐点相乘的形式。
A1是由结果矩阵每个元素的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作。j为复数单位。这里只保留相位部分exp(jΦ1)作为本步骤的结果。
短时Teager能量谱图的幅度谱(对应矩阵X')的绝对强度在经历语音编码传输相关操作,如电平调整、增益控制、压缩编码,等过程后有可能较大的变化。但相对强弱关系仍然能得到保留,这种关系在视觉上体现为短时Teager能量谱图(将矩阵X'视为一副图像,如图3中所示)中的“纹路”。
由于FFT变换的幅度谱具有平移不变性,因此不可能包含位置信息,这些“纹路”的位置信息只能包含在其相位谱信号部分,即exp(jΦ1)中。因此在有噪声干扰的情况下,仅采用相位信息(exp(jΦ1))进行匹配的效果会好于用A1·exp(jΦ1)直接进行匹配的结果。
步骤207与步骤203类似,对矩阵按行做FFT变换,可得到A2·exp(Φ2):
上面0.2式中的符号的含义与步骤203中的含义相同。
步骤208、209,计算下式1.3,得到模版语音与降级语音的POC相关性,其中:
R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]} (0.3)
其中“·”表示矩阵的逐点相乘,即两个矩阵中相同位置元素两两相乘。函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,具体在后面作进一步解释。函数real(·)表示对矩阵的每一个元素(复数)取其实部部分。结果R为大小为2LxN的实数矩阵。
步骤210,对矩阵R按列求均值,得到一维向量r[n],n=1…N。
其中,R(m,n)表示矩阵R的一个元素,在r[n],n=1…N中找到一最大值rmax,记其位置为i。将i换算到降级语音中的实际样本点位置为(i-1)*L+1。
上述步骤201中,对一帧信号计算其短时傅立叶谱的具体方法为:
对该帧信号加窗,即对该帧中每个样本点乘以与该帧等长的窗函数在该点对应的系数值,公式为:
x'[i]=x[i]·w[i] (0.5)
其中,x[i],i=1...2L表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号。加窗的作用主要是抑制分帧造成的频谱能量泄漏,使能量相对集中在主瓣,就可以较为接近于真实的频谱,实际中一般选择汉宁窗或海明窗函数。
例如,以长度为N的汉宁窗为例,其表达式为:
对加窗后的该信号进行快速傅立叶变换,公式为:
其中,X[k]表示归一化频率为k处的频率分量,的定义为:
其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度。
计算能量谱A[k]
A[k]=abs(X[k]) (0.9)
其中,abs表示求一个复数的模。
上述步骤202中,从一帧信号的短时能量谱获得其短时Teager能量谱的具体方法为:
T[k]=k·A[k] (0.10)
其中T[k]为归一化频率k处的Teager能量值,A[k]为从步骤1获得的短时傅立叶谱。
Teager能量理论考虑到物体产生高频震动信号通常需要比低频信号消耗更多的能量,反映在上述公式中即对信号的高频部分对应能量谱乘以更大的系数。
步骤203中对一个矩阵按行做FFT变换的具体做法为:
不失一般性地,设矩阵X大小为M行、N列,对该矩阵按行做FFT变换的结果同样是一个M行、N列的复数矩阵,记为Y。
其中xm[n],1≤m≤M,1≤n≤N表示矩阵X中第m行n列的元素。类似的,ym[k],1≤m≤M,1≤k≤N表示矩阵Y中第m行k列的元素。的定义可参见公式(0.8)。
步骤207中对一个矩阵按行做IFFT变换的具体做法为:
不失一般性地,设矩阵Y大小为M行、N列,对该矩阵按列做FFT变换的结果同样是一个M行、N列的复数矩阵,记为X。则对矩阵Y按行进行IFFT变换的公式描述为:
其中,xm[n],1≤m≤M,1≤n≤N表示矩阵X中第m行n列的元素。类似的,ym[k],1≤m≤M,1≤k≤N表示矩阵Y中第m行k列的元素。的定义可参见公式(0.8)。
上述实施例提供的音频匹配方法,Teager能量谱特征能够更好的反映语音在高频部分的特性,能够提升音频匹配算法定位的精度。利用POC对噪声引起的幅度谱变化不敏感的特点,提升了匹配算法的鲁棒性。
上述实施例提供的音频匹配方法,不同于现有采用DTW音频匹配算法,该算法全流程采用FFT等快速算法实现,易于实现并行处理。
在一个实施例中,被测语音采用8KHz采样,16位PCM编码。降级后的被测语音长度为960s,模版语音长度为10s。对质量降级后的被测语音信号进行重叠分帧,设帧长为128,则帧间重叠部分长度为64。对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱。
对每一帧的傅立叶能量谱计算其Teager能量谱,并以其作为矩阵X'的一列。则X'为一128*119999的二维矩阵。以模版语音为操作对象重复步骤1和2,得到Teager短时能量谱图Y'。则Y'为一128*1249的二维矩阵。对Y'时间反转,既将矩阵的第i列变为其1249-i+1列,然后在右侧补零,令其与X'大小相同,记为
对矩阵X'按行做FFT变换,并将结果的幅度值赋值为1,得到exp(jΦ1)。对矩阵按行做FFT变换,得到A2·exp(jΦ2)。计算下式1.13,得到模版语音与降级语音的POC相关性,其中IFFT表示按行进行逆快速傅立叶变换,real表示对复数取实部。
R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]} (0.13)
对矩阵R按列求均值,得到一维向量r找到r中最大值的位置为39175。则找到模版语音在降级的被测语音中的位置为(39175-1)*64+1=2507137,结果如图4中所示。在语音质量测评应用场景下,该位置即可用于截取对应位置的待测语音,并根据预设的判断标准,对被测语音的质量进行评估。
如图5所示,本发明提供一种音频匹配装置5。Teager能量谱图计算单元51分别计算被测音频与模版音频的二维Teager能量谱图。POC相似度计算单元52对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵。
匹配结果获取单元53对POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
如图6所示,Teager能量谱图计算单元51包括:分帧子模块511、傅立叶计算子模块512和能量谱计算子模块513。
分帧子模块511对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,帧长为2L,帧间重叠部分长度为L。
傅立叶计算子模块512对每一帧语音数据使用FFT算法计算其傅立叶能量谱。能量谱计算子模块513对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图.被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图为矩阵Y'。
傅立叶计算子模块512基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理。其中,x[i],i=1...2L,表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号。
基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。
能量谱计算子模块513基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱。T[k]为归一化频率k处的Teager能量值。
POC相似度计算单元52对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1)。对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补零至与矩阵X'大小相同,记为矩阵对按行做FFT变换,得到其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位。
POC相似度计算单元52基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]}获得模版语音与被测语音的POC相关性;其中“·”表示两个矩阵中相同位置元素两两相乘,函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,函数real(·)表示对矩阵的每一个元素取其实部部分,R为大小为2LxN的实数矩阵。
匹配结果获取单元53对矩阵R按列求均值,得到一维向量r[n],n=1…N;其中R(m,n)表示矩阵R的一个元素;在r[n],n=1…N中找到一最大值rmax,记其位置为i,将i换算到被测语音中的实际样本点位置为(i-1)*L+1。
上述实施例提供的音频匹配方法,Teager能量谱特征能够更好的反映语音在高频部分的特性,能够提升音频匹配算法定位的精度。利用POC对噪声引起的幅度谱变化不敏感的特点,提升了匹配算法的鲁棒性。
上述实施例提供的音频匹配方法,不同于现有采用DTW音频匹配算法,该算法全流程采用FFT等快速算法实现,易于实现并行处理。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (12)
1.一种音频匹配方法,其特征在于,包括:
分别计算被测音频与模版音频的短时Teager能量谱图;
对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;
对所述POC相似度矩阵按列进行平均后得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
2.如权利要求1所述的方法,其特征在于,所述分别计算被测音频与模版音频的短时Teager能量谱图包括:
对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,被测语音与模版语音的帧长皆为2L,帧间重叠部分长度为L;
对每一帧语音数据使用FFT算法计算其短时傅立叶能量谱,并对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;
其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图经为矩阵Y'。
3.如权利要求2所述的方法,其特征在于,所述对每一帧语音数据使用FFT算法计算其傅立叶能量谱包括:
基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号;
基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;
计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。
4.如权利要求3所述的方法,其特征在于,所述对每一帧的傅立叶能量谱计算其Teager能量谱包括:
基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱;
其中,T[k]为归一化频率k处的Teager能量值。
5.如权利要求4所述的方法,其特征在于,所述对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度包括:
对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1);对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补零至与矩阵X'大小相同,记为矩阵对按行做FFT变换,得到
其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位;
基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]}获得模版语音与被测语音的POC相关性;
其中“·”表示两个矩阵中相同位置元素两两相乘,函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,函数real(·)表示对矩阵的每一个元素取其实部部分,R为大小为2LxN的实数矩阵。
6.如权利要求6所述的方法,其特征在于,对所述POC相似度按列进行平均得到一个一维的相似度值向量、选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果包括:
对矩阵R按列求均值,得到一维向量r[n],n=1…N;
其中R(m,n)表示矩阵R的一个元素;
在r[n],n=1…N中找到一最大值rmax,记其位置为i,将i换算到被测语音中的实际样本点位置为(i-1)*L+1。
7.一种音频匹配装置,其特征在于,包括:
Teager能量谱图计算单元,用于分别计算被测音频与模版音频的二维Teager能量谱图;
POC相似度计算单元,用于对被测音频与模版音频的Teager能量谱图分别逐行采用FFT算法计算被测音频与模版音频的POC相似度矩阵;
匹配结果获取单元,用于对所述POC相似度矩阵按列进行平均得到一个一维的相似度值向量,选取所述相似度值向量中的极大值点的位置作为被测音频与模版音频匹配的结果。
8.如权利要求7所述的装置,其特征在于:
所述Teager能量谱图计算单元,包括:
分帧子模块,用于对被测音频的被测语音信号和模版音频的模版语音信号分别进行重叠分帧处理,其中,被测语音与模版语音的帧长皆为2L,帧间重叠部分长度为L。
傅立叶计算子模块,用于对每一帧语音数据使用FFT算法计算其傅立叶能量谱,
能量谱计算子模块,用于对每一帧的傅立叶能量谱计算其Teager能量谱,分别得到被测语音和模版语音的Teager能量谱图;
其中,被测语音的Teager能量谱图为矩阵X',模版语音的Teager能量谱图为矩阵Y'。
9.如权利要求8所述的装置,其特征在于:
所述傅立叶计算子模块,还用于基于公式x'[i]=x[i]·w[i]对每一帧语音数据进行加窗处理;其中,x[i],i=1...2L,表示长度为2L的原始信号,w[i]为一窗函数信号,x'[i]为加窗后信号;基于公式对加窗后的每一帧语音数据进行快速傅立叶变换;其中,X[k]表示归一化频率为k处的频率分量,缩记符号的定义为:其中,e是自然对数的底,j是虚数单位,π为圆周率,N为进行FFT变换的序列长度;计算傅立叶能量谱A[k]=abs(X[k]),其中,abs表示求一个复数的模。
10.如权利要求9所述的装置,其特征在于:
所述能量谱计算子模块,还用于基于公式T[k]=k·A[k]从一帧语音信号的能量谱获得其Teager能量谱;其中,T[k]为归一化频率k处的Teager能量值。
11.如权利要求10所述的方法,其特征在于:
所述POC相似度计算单元,还用于对矩阵X'按行做FFT变换,得到FFT(X')=A1·exp(jΦ1);对矩阵Y'进行时间反转,既将矩阵的第i列变为其M-i+1列,其中M为矩阵Y'的列数,并在右侧补零至与矩阵X'大小相同,记为矩阵对按行做FFT变换,得到
其中,A1、A2是由矩阵X'和矩阵每个元素进行FFT算法计算后的幅度值构成的矩阵,Φ1表示每个元素的相位值构成的矩阵,exp表示对矩阵的每一个元素执行底数为常数e的幂函数操作;j为复数单位;基于公式R=real{IFFT[exp(jΦ1)·A2·exp(jΦ2)]}获得模版语音与被测语音的POC相关性;
其中“·”表示两个矩阵中相同位置元素两两相乘,函数IFFT[·]表示对矩阵按行进行逆快速傅立叶变换,函数real(·)表示对矩阵的每一个元素取其实部部分,R为大小为2LxN的实数矩阵。
12.如权利要求11所述的装置,其特征在于:
所述匹配结果获取单元,用于对矩阵R按列求均值,得到一维向量r[n],n=1…N;其中R(m,n)表示矩阵R的一个元素;
在r[n],n=1…N中找到一最大值rmax,记其位置为i,将i换算到被测语音中的实际样本点位置为(i-1)*L+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063616.8A CN105989837B (zh) | 2015-02-06 | 2015-02-06 | 音频匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063616.8A CN105989837B (zh) | 2015-02-06 | 2015-02-06 | 音频匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989837A true CN105989837A (zh) | 2016-10-05 |
CN105989837B CN105989837B (zh) | 2019-09-13 |
Family
ID=57037963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510063616.8A Active CN105989837B (zh) | 2015-02-06 | 2015-02-06 | 音频匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989837B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710798A (zh) * | 2018-12-28 | 2019-05-03 | 北京金山安全软件有限公司 | 曲目演奏考评方法和装置 |
CN109903752A (zh) * | 2018-05-28 | 2019-06-18 | 华为技术有限公司 | 对齐语音的方法和装置 |
CN110728972A (zh) * | 2019-10-15 | 2020-01-24 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
CN112447166A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 一种针对目标频谱矩阵的处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040218815A1 (en) * | 2003-02-05 | 2004-11-04 | Sony Corporation | Image matching system and image matching method and program |
US20140129011A1 (en) * | 2012-11-02 | 2014-05-08 | Dolby Laboratories Licensing Corporation | Audio Data Hiding Based on Perceptual Masking and Detection based on Code Multiplexing |
CN103871426A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 对比用户音频与原唱音频相似度的方法及其系统 |
CN104133851A (zh) * | 2014-07-07 | 2014-11-05 | 小米科技有限责任公司 | 音频相似度的检测方法和检测装置、电子设备 |
-
2015
- 2015-02-06 CN CN201510063616.8A patent/CN105989837B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040218815A1 (en) * | 2003-02-05 | 2004-11-04 | Sony Corporation | Image matching system and image matching method and program |
US20140129011A1 (en) * | 2012-11-02 | 2014-05-08 | Dolby Laboratories Licensing Corporation | Audio Data Hiding Based on Perceptual Masking and Detection based on Code Multiplexing |
CN103871426A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 对比用户音频与原唱音频相似度的方法及其系统 |
CN104133851A (zh) * | 2014-07-07 | 2014-11-05 | 小米科技有限责任公司 | 音频相似度的检测方法和检测装置、电子设备 |
Non-Patent Citations (1)
Title |
---|
KOICHI ITO ETAL.: "A Fingerprint Matching Algorithm Using Phase-Only Correlation", 《IEICE TRANS.FUNDAMENTALS》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903752A (zh) * | 2018-05-28 | 2019-06-18 | 华为技术有限公司 | 对齐语音的方法和装置 |
WO2019228306A1 (zh) * | 2018-05-28 | 2019-12-05 | 华为技术有限公司 | 对齐语音的方法和装置 |
CN109903752B (zh) * | 2018-05-28 | 2021-04-20 | 华为技术有限公司 | 对齐语音的方法和装置 |
US11631397B2 (en) | 2018-05-28 | 2023-04-18 | Huawei Technologies Co., Ltd. | Voice alignment method and apparatus |
CN109710798A (zh) * | 2018-12-28 | 2019-05-03 | 北京金山安全软件有限公司 | 曲目演奏考评方法和装置 |
CN112447166A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 一种针对目标频谱矩阵的处理方法及装置 |
CN110728972A (zh) * | 2019-10-15 | 2020-01-24 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
CN110728972B (zh) * | 2019-10-15 | 2022-02-11 | 广州酷狗计算机科技有限公司 | 音色相似度的确定方法、装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105989837B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chi et al. | Multiresolution spectrotemporal analysis of complex sounds | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
CN105788603A (zh) | 一种基于经验模态分解的音频识别方法及系统 | |
CN105989837A (zh) | 音频匹配方法及装置 | |
CN104616663A (zh) | 一种结合hpss的mfcc-多反复模型的音乐分离方法 | |
US10770051B2 (en) | Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms | |
US10607630B2 (en) | Encoding by reconstructing phase information using a structure tensor on audio spectrograms | |
CN104254887A (zh) | 用于评估卡拉ok用户的方法和系统 | |
Swanepoel et al. | The relative importance of spectral cues for vowel recognition in severe noise | |
Wang et al. | Multi-subspace echo hiding based on time-frequency similarities of audio signals | |
Singh et al. | Countermeasures to replay attacks: A review | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
Gallardo et al. | I-vector speaker verification for speech degraded by narrowband and wideband channels | |
CN108806721A (zh) | 信号处理器 | |
Shabtai et al. | Room volume classification from room impulse response using statistical pattern recognition and feature selection | |
CN101609675A (zh) | 一种基于质心的脆弱音频水印方法 | |
Giannoulis et al. | On the disjointess of sources in music using different time-frequency representations | |
Ganapathy et al. | Temporal resolution analysis in frequency domain linear prediction | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
Zeng et al. | Audio recorder forensic identification in 21 audio recorders | |
Liu et al. | Speech Formants Integration for Generalized Detection of Synthetic Speech Spoofing Attacks | |
Gunawan et al. | Separation of harmonic musical instrument notes using spectro-temporal modeling of harmonic magnitudes and spectrogram inversion with phase optimization | |
Koniaris et al. | Auditory-model based robust feature selection for speech recognition | |
Li | Audio Forensic Analysis and Authentication Using Deep Learning | |
Li et al. | A Voice Disguise Communication System Based on Real-Time Voice Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |